Tôi đang cố gắng kết hợp một gói khai thác dữ liệu cho các trang web StackExchange và đặc biệt, tôi bị mắc kẹt trong việc cố gắng xác định các câu hỏi "thú vị nhất". Tôi muốn sử dụng điểm số câu hỏi, nhưng loại bỏ sự thiên vị do số lượt xem, nhưng tôi không biết cách tiếp cận vấn đề này một cách chặt chẽ.
Trong thế giới lý tưởng, tôi có thể sắp xếp các câu hỏi bằng cách tính , trong đó là tổng số phiếu và là số lượt xem. Sau tất cả, nó sẽ đo tỷ lệ phần trăm của những người đưa ra câu hỏi, trừ đi tỷ lệ phần trăm của những người hạ thấp câu hỏi. vn
Thật không may, mô hình bỏ phiếu phức tạp hơn nhiều. Phiếu bầu có xu hướng "cao nguyên" đến một mức độ nhất định và điều này có tác dụng đánh giá thấp những câu hỏi cực kỳ phổ biến. Trong thực tế, một câu hỏi có 1 lượt xem và 1 lượt upvote chắc chắn sẽ ghi điểm và được sắp xếp cao hơn bất kỳ câu hỏi nào khác với 10.000 lượt xem, nhưng ít hơn 10.000 phiếu.
Tôi hiện đang sử dụng như một công thức thực nghiệm, nhưng tôi muốn chính xác. Làm thế nào tôi có thể tiếp cận vấn đề này với sự nghiêm ngặt toán học?
Để giải quyết một số ý kiến, tôi sẽ cố gắng khôi phục vấn đề theo cách tốt hơn:
Giả sử tôi có một câu hỏi với tổng số phiếu và lượt xem. Tôi muốn có thể ước tính tổng số phiếu bầu có khả năng nhất khi lượt xem đạt .n 0 v 1 n 1
Theo cách này, tôi có thể chỉ cần chọn một giá trị danh nghĩa cho và sắp xếp tất cả các câu hỏi theo tổng số dự kiến .v 1
Tôi đã tạo hai truy vấn trên cơ sở dữ liệu SO để hiển thị rõ hơn hiệu quả mà tôi đang nói đến:
Lượt xem trung bình theo điểm số
Kết quả:
Điểm trung bình theo lượt xem (nhóm 100 lượt xem)
Kết quả:
Kết quả, không chắc chắn liệu dây đai có tốt hơn không: ( màu xanh lam, màu đỏ) v