Có cách nào để phát hiện sai lệch công cụ tìm kiếm?

Các công cụ tìm kiếm đang ngày càng được dựa vào như những người gác cổng thông tin, tuy nhiên các tiêu chí được sử dụng bởi các công cụ tìm kiếm để xếp hạng kết quả là không rõ ràng đối với người dùng. Làm thế nào người dùng có thể chắc chắn rằng kết quả của họ không bị sai lệch hoặc bị can thiệp theo một cách nào đó để có lợi cho một số lợi ích với chi phí chất lượng kết quả tìm kiếm?

Chính phủ thường xuyên yêu cầu các nhà cung cấp dịch vụ tìm kiếm loại bỏ hoặc hạ thấp thứ hạng của các trang web được coi là không mong muốn về mặt chính trị. Các doanh nghiệp có thể trả tiền cho các nhà cung cấp để tăng kết quả nhất định so với những người khác để tăng doanh thu của họ. Tường lửa có thể can thiệp vào kết quả trước khi chúng được truyền lại cho người dùng.

Ngay cả những thay đổi dường như vô hại đối với các thuật toán xếp hạng có vẻ không bị sai lệch, thực sự có thể được thiết kế lệch lạc để gây hại cho các trang web có chung một số thuộc tính chung (không liên quan đến chất lượng thực tế).

Có thể phát hiện sai lệch của công cụ tìm kiếm, bằng cách nói kết quả giám sát trong một khoảng thời gian và đánh giá xem một số "biến ẩn" (có thể là liên kết chính trị) có phải là yếu tố thúc đẩy thay đổi thứ hạng trang web không?

Một nhà cung cấp lén lút có thể dần dần hạ thấp thứ hạng của các trang web được nhắm mục tiêu (và có lẽ các trang web ngẫu nhiên cũng để đánh lạc hướng người dùng). Các giới hạn về mức độ thiên vị mà một nhà cung cấp có thể giới thiệu mà không phát hiện là gì? Hoặc có thể luôn che giấu sự can thiệp đó bằng cách chọn sai các tiêu chí xếp hạng có trọng số mà tình cờ tạo ra kết quả mong muốn (bằng cách "rình mò dữ liệu").

Có bất kỳ thay đổi này nếu tiêu chí xếp hạng được công khai? Chúng ta có cần nguồn mở mà các công cụ tìm kiếm sử dụng không?

Điều này nhắc nhở tôi về kết quả phát hiện xem một công cụ tài chính phức tạp như CDO có bị người bán giả mạo hay không tương đương với việc giải quyết vấn đề sơ đồ dày đặc nhất:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Cảm ơn!

ds.algorithms data-mining

— tay.
nguồn

đây là một câu hỏi hay, nhưng tôi sẽ sửa lại bằng cách đảm bảo chỉ hỏi một câu hỏi liên quan đến cstheory. Rõ ràng nhất là làm cho điều này trở thành một yêu cầu tham khảo và hỏi "có ai đã xem cái này chưa?". Nếu bạn chắc chắn không ai có, thì một cái gì đó như "làm thế nào điều này có thể được mô hình hóa chính thức?" có thể là một câu hỏi hay Nếu bạn giữ quá nhiều câu hỏi xung quanh, với một số trong số chúng có khả năng không liên quan đến cstheory, thì nó có thể bị đóng là "không phải là một câu hỏi thực sự".

— Artem Kaznatcheev

Lưu ý rằng việc lập một sơ đồ xếp hạng công khai sẽ mở ra để tấn công bởi những kẻ gửi thư rác. Một biến thể thú vị sẽ là: "có một khóa công khai" tương đương với thứ hạng "

— Suresh Venkat

@SureshVenkat "thực hiện kế hoạch xếp hạng công khai mở nó để tấn công" nghe có vẻ như bạn đang đề xuất <s> bảo mật </ s> không thiên vị thông qua che khuất;).

— Artem Kaznatcheev

không, nhưng đó là lý do tại sao tôi hỏi về các phiên bản khóa công khai của các chương trình xếp hạng.

— Suresh Venkat

Vì không có bên nào tham gia vào quá trình tìm kiếm được cho là người dùng độc hại, nên một giải pháp bình thường là mô hình hóa quy trình này như một trò chơi với những người dùng ích kỷ. Nếu được mô hình hóa chính xác, chúng ta có thể tìm hiểu liệu nó có lợi cho các công cụ tìm kiếm để làm điều đó hay không. Sau đó, chúng ta có thể thiết kế một cơ chế để ngăn chặn sự giả mạo như vậy.

— Helium

Đây rõ ràng là một câu hỏi kết thúc rất cởi mở, nhưng để tiếp tục chủ đề, đây là một cách tiếp cận lý thuyết CS về ý tưởng "công bằng" và cách thực thi nó.

"Công bằng thông qua nhận thức" Dwork, Hardt, Pitassi, Reingold, Zillac http://arxiv.org/abs/1104.3913

— Aaron
nguồn