Phương pháp nào được sử dụng trong tương quan của Google?


8

Đây là một truy vấn tương quan gần đây của Google:
http://www.google.com/trends/correlate/search?e=iNET+usage&t=weekly#

Như bạn có thể thấy trong hộp tìm kiếm tại liên kết đó, tôi đã nhập "sử dụng internet" và Google đã làm phần còn lại. Nó hiển thị giá trị 0,9298 là "tương quan" với truy vấn "khai thác dữ liệu". Tuy nhiên, khi tôi đọc trang 2 của sách trắng Google [PDF] , nó nói:

The objective of Google Correlate is to surface the queries in
the database whose spatial or temporal pattern is most highly correlated
with a target pattern. Google Correlate employs a novel approximate nearest
neighbor (ANN) algorithm over millions of candidate queries in an online
search tree to produce results similar to the batch-based approach employed
by Google Flu Trends but in a fraction of a second. For additional details,
please see the Methods section below....

Vì vậy, câu hỏi của tôi là:
Google có sử dụng tương quan Pearson hoặc Spearman bình thường để tìm nội dung này hay họ đang sử dụng thứ gì khác? Nếu vậy, bạn có thể giải thích các kỹ thuật chung?

==================

Ngoài ra, lưu ý trong cốt truyện rằng việc tìm kiếm "sử dụng internet" (và "khai thác dữ liệu") giảm trong những tháng mùa hè và thực sự lặn trong dịp Giáng sinh. Tôi đoán rằng những đứa trẻ và bài tập về nhà của chúng có liên quan đến điều này.


3
Không phải đây chỉ là các hệ số tương quan Pearson như được báo cáo trong hướng dẫn ? (Phần truy vấn tương quan )
chl

2
@chl: Bạn nói đúng. Tôi đã nhấp vào Câu hỏi thường gặp, nhưng được Whitepaper bỏ qua. Vì vậy, họ đang sử dụng mối tương quan của chuỗi thời gian (không phải thay đổi trong chuỗi thời gian). Điều đó giống như tính toán mối tương quan của giá cổ phiếu, chứ không phải lợi nhuận. Đó là một chút ngạc nhiên.
bill_080

3
@chl: mặc dù câu trả lời của bạn hơi rõ ràng, nó vẫn là một câu trả lời, và bạn nên làm cho nó như vậy, để nó có thể được chấp nhận.
hư vô 101

1
@ bill_080 Bất kỳ phản hồi nào từ google về lý do tại sao dữ liệu khác nhau giữa hai hệ thống? Tôi thực sự tìm thấy câu hỏi này để tìm lời giải thích liên quan đến quan sát của bạn
chandler

1
@ Vendler: Google không bao giờ trả lời e-mail. Tôi đã chơi với cả Trend và Correlate trong một thời gian, nhưng không hữu ích như tôi mong đợi, vì vậy tôi đã tiếp tục.
bill_080

Câu trả lời:


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.