Tỷ lệ tiêu chuẩn của cookie đối với khách truy cập trên mạng?


31

Như đã lưu ý trong một bài đăng trên blog gần đây , chúng tôi thấy sự khác biệt lớn giữa "khách truy cập" và "khách truy cập" của Google Analytics.

Ngoài ra, vì những lý do mà chúng tôi chưa bao giờ tìm ra, Google Analytics chỉ nhận được số lượng lớn hơn Wikimedia. Hiện tại GA đang hiển thị nhiều khách truy cập (15 triệu) trên stackoverflow.com so với Wikimedia thấy trên toàn bộ mạng (14 triệu):

Tại sao? Tôi không biết. Đôi khi Google Analytics bị mất cookie hoặc Wikimedia nhớ khách truy cập. Đếm là một khoa học không chính xác.

Chúng tôi nghĩ rằng điều này là do Wikimedia sử dụng tỷ lệ cookie cho khách truy cập bảo thủ hơn . Trong khi Google Analytics có thể coi mỗi cookie là "khách truy cập", thì Wikimedia sẽ chỉ coi mỗi 1,24 cookie là "khách truy cập". Điều này có ý nghĩa với tôi, vì mọi người có thể truy cập các trang web của chúng tôi từ nhiều máy tính, nhiều trình duyệt, vân vân.

Tôi có hai câu hỏi liên quan chặt chẽ:

  1. Có một tỷ lệ tiêu chuẩn của cookie cho khách truy cập? Đây rõ ràng là một khoa học không chính xác, nhưng có bất kỳ quy tắc mới nổi nào không?

  2. Có cách nào chính xác hơn để đếm "khách truy cập" vào một trang web ngoài việc dựa vào cookie của trình duyệt không? Hoặc điều này sẽ luôn luôn là một loại crapshoot ước tính nỗ lực tốt nhất cho dù bạn đo lường nó như thế nào?


Wikimedia chắc chắn sử dụng cookie, phải không? Họ không chỉ vào địa chỉ IP hay cái gì đó?
DisgruntledGoat

@disgruntledgoat tôi vừa kiểm tra trang web: "Wikimedia cung cấp dữ liệu đối tượng cho cả số lượng cookie và số người duy nhất."
Matthew Brookes

@DisgruntledGoat kiểm tra chính trang này. Nó có cookie từ quantserve.com.
Yahel

Câu trả lời:


14

Wikimedia gửi email cho tôi:

Bạn đã đề cập rằng có một đồng bằng khá đáng kể giữa số GA và số QC của bạn. Mặc dù điều này không xảy ra thường xuyên, nhưng nó có xảy ra và có một số lý do điều này có thể xảy ra. Chẳng hạn, chúng tôi chiếm cookie của bên thứ 3 và tự động làm mới còn GA thì không. Chúng tôi cũng yêu cầu các nhà xuất bản đặt thẻ của chúng tôi ở gần cuối trang để tuân thủ các tiêu chuẩn MRC và IAB. Nếu các thẻ đo lường khác của bạn cao hơn trên trang, chúng có thể kích hoạt khi không có. (Chúng tôi là dịch vụ đo lưu lượng được MRC công nhận duy nhất). Ngoài ra, các số sẽ không bao giờ giống hệt nhau do các cân nhắc về múi giờ - chúng tôi sử dụng chức năng chuẩn hóa và GA là cố định.

Nếu bạn muốn tìm hiểu thêm về cách chúng tôi xác định số điện thoại của mình, vui lòng xem: http://www.quantcast.com/how-we-do-it . Chúng tôi cũng có các trang trắng về dữ liệu đối tượng được sửa cookie và phương pháp của chúng tôi nằm ở đây.

Lướt qua những tờ giấy trắng tôi thấy rằng họ thực sự đang làm những gì Jeff gợi ý: làm mờ các con số "chính thức" để có được thứ gì đó mà họ nghĩ là gần với số người thực sự. Họ có một Sách trắng Khán giả sửa lỗi Cookie (liên kết PDF) ngụ ý rằng hệ thống của họ khá phức tạp, không đơn giản như chỉ chia cho một số ma thuật:

Chương trình Nhà xuất bản định lượng Wikimedia ghi lại hơn 75 tỷ sự kiện tiêu thụ phương tiện mỗi tháng, được tạo ra bởi hơn 1,4 tỷ cookie (dữ liệu tính đến tháng 6 năm 2008). Hơn nữa, nhiều đối tác Nhà xuất bản Định lượng của chúng tôi chia sẻ số nhận dạng ẩn danh với chúng tôi độc lập với cookie. Mô hình của chúng tôi cũng bao gồm một số bảng cung cấp cho các điểm tham chiếu và hiệu chuẩn dựa trên con người không bị xóa cookie. Chúng tôi sắp xếp theo khối lượng dữ liệu này với các quy trình thu thập, sai lệch và các vấn đề khác nhau. Các mô hình của chúng tôi tính đến tần suất truy cập, khoảng thời gian, khả năng sử dụng nhiều máy tính và thậm chí tác động của nhiều người sử dụng cùng một máy tính để đưa ra ước tính dựa trên mọi người. Mô hình của chúng tôi để dịch cookie duy nhất cho mọi người đã được xác thực bằng cách sử dụng các mẫu giữ và bộ dữ liệu độc lập. Hơn nữa, mô hình của chúng tôi rất năng động và được hiệu chỉnh lại trên cơ sở liên tục để phản ánh bản chất phát triển của các mẫu lưu lượng truy cập Internet.


2
Hấp dẫn. Đoạn trích sau có nhiều thông tin (và thuyết phục) hơn đoạn đầu. GA không cần phải tính đến cookie của bên thứ ba, vì nó sử dụng cookie của bên thứ nhất. Có, sự khác biệt múi giờ sẽ thay đổi con số chính xác, nhưng kéo dài hơn một tháng, rất khó có thể tính đến sự khác biệt đo lường đáng kể.
Yahel

27

Có một yếu tố khác đang diễn ra với Wikimedia undercounting: Họ sử dụng cookie của bên thứ ba (cookie được phân phát từ .quantserve.comtên miền), trong khi Google Analytics sử dụng cookie của bên thứ nhất ( stackexchange.com, v.v.)

Điều này khá quan trọng, vì một số trình duyệt (đặc biệt là Safari, nhưng gần đây là Firefox và Chrome) vô hiệu hóa cookie của bên thứ ba làm cài đặt mặc định và nhiều trình duyệt khác có thể chọn riêng lẻ cài đặt quyền riêng tư ngăn chặn cookie của bên thứ ba. Điều này có nghĩa là có một tập hợp dân số sẽ không bao giờ bị theo dõi bởi cookie của QuantCast. Do đó, điều đó có nghĩa là Google Analytics sẽ luôn trả lại số lượng khách truy cập cao hơn.

Tôi muốn nói rằng không có quy tắc của ngón tay cái. Là một học viên phân tích, tôi nói rằng việc tìm kiếm số lượng khách truy cập 'thật' là vô vọng, và thay vào đó tập trung vào chính các lượt truy cập. Ví dụ: đối với tài khoản Google Analytics của bạn, tôi có ít nhất 8 khách truy cập khác nhau, đã truy cập StackOverflow từ Chrome, Safari và Firefox trên máy tính xách tay công việc, máy tính xách tay cá nhân, điện thoại và iPad của tôi. Tất cả các dịch vụ phân tích đều được tính theo các cách khác nhau và do đó tất cả đều trả về các số khác nhau đáng kể.

Ngay cả khi triển khai hoàn hảo, Google Analytics sẽ hầu như luôn hiển thị số lượt truy cập thấp hơn hệ thống phân tích dựa trên nhật ký máy chủ, nhưng sẽ hiển thị số lượt truy cập cao hơn hệ thống dựa trên cookie của bên thứ ba như Wikimedia. Điều quan trọng không phải là nhìn vào tổng số thô, mà là các xu hướng mà mỗi phương pháp thể hiện trong các điểm mạnh của nó. Vì vậy, không bao giờ so sánh các số Wikimedia với số Google Analytics; thay vào đó, sử dụng các số trong bối cảnh mà chúng được thu thập.

Một vấn đề khác có thể là việc triển khai Google Analytics của bạn không chính xác, vì việc định cấu hình nó cho loại thiết lập nhiều tên miền và tên miền phụ của bạn có thể là một cơn ác mộng nếu không được thực hiện đúng và nghiêm ngặt, có thể dẫn đến một trình duyệt duy nhất được tính là nhiều khách truy cập, chính nó làm tăng số lượng của bạn. Điều này không bao giờ là vấn đề đối với Wikimedia, vì tất cả các cookie được đặt tại tên miền của bên thứ ba.


Google Chrome dường như cũng chặn cookie của bên thứ ba theo mặc định.
MrWhite

7

Tỷ lệ cookie cho khách truy cập duy nhất thường nằm trong khoảng từ 1,3 đến 1,7 cho các trang web có hơn một triệu lượt truy cập.

Mặc dù yc01 đúng là GA sử dụng cookie của bên thứ nhất so với cookie của bên thứ ba, nhưng tại RealSelf.com, chúng tôi sử dụng hai nhà cung cấp phân tích của bên thứ nhất (GA và Comscore Direct) và GA vẫn hiển thị số lượng khách truy cập tuyệt đối hơn 30% so với khách truy cập duy nhất của Comscore.

Comscore chỉ hiển thị khách truy cập duy nhất theo quốc gia, vì vậy để so sánh GA với Comscore, chúng tôi phải tính toán số lượng khách truy cập duy nhất tuyệt đối có trụ sở tại Hoa Kỳ như sau:

Lượt truy cập tại Hoa Kỳ / Lượt truy cập toàn cầu * Người dùng duy nhất tuyệt đối

(1.150.110 / 1.650.979) * 1.273.059 = 886.842 Người dùng duy nhất có trụ sở tại Hoa Kỳ

Ngược lại, Comscore báo cáo 680.900 Người dùng duy nhất có trụ sở tại Hoa Kỳ. Vì vậy, GA hiển thị thêm 30,2%.

Comscore đã xây dựng doanh nghiệp của họ xung quanh cố gắng chính xác, trong khi GA chủ yếu là một cách miễn phí để theo dõi và tối ưu hóa các trang web sử dụng AdWords và AdSense. Comscore có một nhóm người mà họ cũng sử dụng để ước tính lưu lượng truy cập và họ sử dụng bảng đó để xác định số lượng cookie trung bình cho mỗi người. Với nhiều người sử dụng thiết bị di động (mức sử dụng di động của chúng tôi là 15%), điều đó có nghĩa là các cookie duy nhất vượt quá số lượng người duy nhất.


"Tỷ lệ cookie cho khách truy cập duy nhất thường nằm trong khoảng từ 1,3 đến 1,7 cho các trang web có hơn một triệu lượt truy cập." Đó có phải là một nhân vật được công bố Comscore?
Ciaran

điều này là chính xác đáng ngạc nhiên đối với chúng tôi; Tôi đã chạy các UserSessionsố liệu thống kê bảng trên một vài trang web và chúng nằm trong khoảng từ 2.0 (Stack Overflow) đến 1.46 (webapps.se) với mọi thứ khác ở giữa. 1.6 có vẻ như một mặc định rất lành mạnh cho các trang web tập trung vào công nghệ.
Jeff Atwood

4

Đây là một nghiên cứu gần đây (ngày 4 tháng 5 năm 2011 - ngày hôm qua khi tôi viết bài này) từ MediaMind với "Hệ số lạm phát cookie" cho các thị trường khác nhau:

Hệ số lạm phát được tính toán của họ là từ 2,2 đối với Đức đến 3,0 đối với Mỹ.


điều này thật tuyệt vời - chính xác là loại tài liệu tham khảo mà tôi đang tìm kiếm
Jeff Atwood

2

Có thể số lượng khách truy cập GA của bạn tăng cao hơn so với một trang web bình thường vì tính chất kỹ thuật của đối tượng đó? Ví dụ, các lập trình viên, đặc biệt là các nhà phát triển web, có nhiều khả năng đang sử dụng một loạt các trình duyệt và do đó làm tăng số lượng cookie.

Đối với câu hỏi 1, tôi đoán rằng, cũng như nhiều số liệu, tốt hơn là sử dụng dữ liệu từ trang web của riêng bạn thay vì tìm kiếm các tiêu chuẩn toàn cầu vì các tổng hợp có thể gây hiểu nhầm. Một cách để đưa cookie đến số lượng khách truy cập thực sự có thể là đếm số lượng cookie bạn nhìn thấy từ mỗi người dùng đã đăng ký sau đó lấy số từ đó.

Đối với số 2, về mặt lý thuyết, cách tốt nhất để đếm khách truy cập thực sự sẽ là buộc mọi người phải đăng ký tài khoản. Vì đó rõ ràng không phải là một ý tưởng tốt, sau đó bạn có thể nhìn vào bình thường hóa. Ví dụ: bạn có thể sử dụng cookie trung bình cho số liệu người dùng đã đăng ký mà tôi đã đề xuất ở trên và áp dụng nó cho số khách truy cập mà GA đang báo cáo.


Đây là một điểm tuyệt vời. Trên Stack Overflow, chúng tôi hiện có 531.484 phiên trong đó 261.547 điểm cho người dùng duy nhất - về cơ bản là 2 cookie cho mỗi 1 người dùng.
Jeff Atwood

-1

Tôi nghĩ IP có thể tin tưởng ... khi tôi tạo hệ thống thống kê như GA với python, tôi sử dụng một số phương pháp như thế này

  • gửi cookie đến trình duyệt và lấy tất cả dữ liệu đại lý vào cơ sở dữ liệu
  • Cách dễ dàng nếu lượt truy cập mới có cookie, đây không phải là lượt truy cập mới vì vậy tôi lưu nó dưới dạng lượt truy cập mới (tôi cũng đã chỉ định ngày và thời gian trì hoãn để tìm lượt truy cập mới nếu người dùng truy cập lại trang web sau 2 giờ)
  • lưu IP người dùng và một số id cho người dùng này và IP và cookie (cũng lưu trong cookie)
  • Người dùng mới đến và không có cookie nào ... IP này có mới không? Vâng? OK người dùng mới của nó chỉ lấy tác nhân người dùng và IP / không? người dùng này đến bao nhiêu lần nhiều hơn giới hạn? không thực sự truy cập mới, không nhiều hơn với tác nhân người dùng này? OK đây là mới ...: D

phương pháp này có lỗi nhưng không xấu và gần dữ liệu hợp lệ ... (nó cũng phụ thuộc vào thời gian trễ để tìm người dùng mới (độ trễ giữa 2 lần truy cập) và thời gian thử cho người dùng không có cookie)


5
Làm thế nào điều này sẽ xử lý ví dụ như một công ty có nhiều nhà phát triển khác nhau truy cập StackOverflow từ phía sau NAT? Tất cả họ sẽ được tính là một khách truy cập?
Svish

3
Các khía cạnh IP của điều này là thực sự thiếu sót. Địa chỉ IP không phải là một định danh duy nhất.
Yahel

Có thời gian thử việc này ... chúng tôi kiểm tra đại lý và những thứ khác và chúng tôi có thể thêm một ip hơn 100 lần ... cách được đề xuất để tìm người dùng thực sự đằng sau một NAT
Mohammad Efazati
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.