Chức năng thú vị của cung cấp cho các câu hỏi StackExchange

Tôi đang cố gắng kết hợp một gói khai thác dữ liệu cho các trang web StackExchange và đặc biệt, tôi bị mắc kẹt trong việc cố gắng xác định các câu hỏi "thú vị nhất". Tôi muốn sử dụng điểm số câu hỏi, nhưng loại bỏ sự thiên vị do số lượt xem, nhưng tôi không biết cách tiếp cận vấn đề này một cách chặt chẽ.

Trong thế giới lý tưởng, tôi có thể sắp xếp các câu hỏi bằng cách tính , trong đó là tổng số phiếu và là số lượt xem. Sau tất cả, nó sẽ đo tỷ lệ phần trăm của những người đưa ra câu hỏi, trừ đi tỷ lệ phần trăm của những người hạ thấp câu hỏi. $\frac{v}{n}$ $v$ $n$

Thật không may, mô hình bỏ phiếu phức tạp hơn nhiều. Phiếu bầu có xu hướng "cao nguyên" đến một mức độ nhất định và điều này có tác dụng đánh giá thấp những câu hỏi cực kỳ phổ biến. Trong thực tế, một câu hỏi có 1 lượt xem và 1 lượt upvote chắc chắn sẽ ghi điểm và được sắp xếp cao hơn bất kỳ câu hỏi nào khác với 10.000 lượt xem, nhưng ít hơn 10.000 phiếu.

Tôi hiện đang sử dụng như một công thức thực nghiệm, nhưng tôi muốn chính xác. Làm thế nào tôi có thể tiếp cận vấn đề này với sự nghiêm ngặt toán học? $\frac{v}{\log{n}+1}$

Để giải quyết một số ý kiến, tôi sẽ cố gắng khôi phục vấn đề theo cách tốt hơn:

Giả sử tôi có một câu hỏi với tổng số phiếu và lượt xem. Tôi muốn có thể ước tính tổng số phiếu bầu có khả năng nhất khi lượt xem đạt . $v_0$ $n_0$ $v_1$ $n_1$

Theo cách này, tôi có thể chỉ cần chọn một giá trị danh nghĩa cho và sắp xếp tất cả các câu hỏi theo tổng số dự kiến . $n_1$ $v_1$

Tôi đã tạo hai truy vấn trên cơ sở dữ liệu SO để hiển thị rõ hơn hiệu quả mà tôi đang nói đến:

Lượt xem trung bình theo điểm số

Kết quả:

Lượt xem theo điểm

Điểm trung bình theo lượt xem (nhóm 100 lượt xem)

Kết quả:

Điểm theo lượt xem

Hai công thức so sánh

Kết quả, không chắc chắn liệu dây đai có tốt hơn không: ( màu xanh lam, màu đỏ) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Công thức

data-mining predictive-models

— Sklivvz
nguồn

Đây chắc chắn là một câu hỏi thú vị, nhưng tôi nghĩ bạn có thể tốt hơn khi hỏi điều này trên thống kê.SE.

@Theo Bạn có thể đúng, thực sự. Tôi sẽ gắn cờ cho các mod di chuyển nếu họ nghĩ nó tốt nhất.

Tại sao lượt xem không đóng góp cho tính thú vị? (nhưng tệ hơn, tại sao họ lại đóng góp tiêu cực?) Những điều thú vị hơn có xu hướng được xem thường xuyên hơn ... Vấn đề cơ bản ở đây là điều gì thú vị thậm chí có nghĩa là gì? Liệu nó có nghĩa là các câu hỏi về mối quan tâm chung hoặc câu hỏi được quan tâm cho một đối tượng cấp cao cụ thể hơn? Để ai đó trả lời câu hỏi này với "tính nghiêm khắc toán học", nó cần được đặt ra một cách nghiêm ngặt trước tiên.

Lượt xem thiên vị các câu hỏi bởi vì một câu hỏi có thể, được liên kết bởi một trang web tốt và nhận được rất nhiều lượt xem - nếu bạn nhìn vào các câu hỏi được xếp hạng hàng đầu, tất cả chúng đều là những câu hỏi có lượt xem cao; bởi thú vị, ý tôi là những câu hỏi có giá trị hơn theo cảm nhận của người dùng trang web. Trong mọi trường hợp, câu hỏi vẫn còn tồn tại: cách kết hợp quan điểm và phiếu bầu chính xác để có được người dự đoán chất lượng tốt nhất là gì?

Những người toán học hỏi những câu hỏi hay. Logic của câu hỏi này có vẻ như hình tròn: có vẻ như yêu cầu chúng tôi đưa ra một công thức để đo lường "chất lượng" của câu hỏi SE nhưng nó không quy định "chất lượng" nghĩa là gì ngoài việc đưa ra các từ đồng nghĩa không hoạt động như "giá trị mà người dùng cảm nhận được của trang web." Bạn không thể nhận được một cái gì đó cho không có gì!

— whuber

Câu trả lời:

Người ta có thể định nghĩa một câu hỏi thú vị là một câu hỏi đã nhận được tương đối nhiều phiếu bầu cho số lượt xem. Để kết thúc này, bạn có thể tạo một đường cong cơ sở phản ánh số lượng phiếu bầu dự kiến cho các lượt xem. Các đường cong thu hút nhiều phiếu bầu hơn so với đường cơ sở được coi là đặc biệt thú vị.

Để xây dựng đường cơ sở, bạn có thể muốn tính số phiếu trung bình cho mỗi thùng 100 lượt xem. Ngoài ra, bạn có thể tính độ lệch tuyệt đối trung vị (MAD) là một thước đo mạnh mẽ cho độ lệch chuẩn trên mỗi thùng. Sau đó, "tính thú vị" có thể được tính là

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— Giô-na
nguồn

Đây là lý thuyết của tôi. Tôi nghĩ có hai loại câu hỏi: những câu hỏi chủ yếu nằm trong SE (thường có ít lượt xem hơn) và những câu hỏi được người ngoài xem bởi vì nó được liên kết từ một nơi khác (thường có nhiều lượt xem hơn).

Đối với các câu hỏi chủ yếu vẫn nằm trong SE, phiếu bầu là thước đo tốt cho các câu hỏi thú vị. Đây là điểm của phiếu bầu.

Khi một câu hỏi được liên kết với bên ngoài trang web, phiếu bầu sẽ có ý nghĩa càng nhiều. Một số trang web liên kết có thể có rất ít thành viên SE, những trang khác có thể có nhiều hơn. Phương sai của số phiếu bầu cho những câu hỏi này có thể cao (bằng chứng là điểm số của bạn so với cốt truyện, trong đó phía bên phải của đường cong nở ra). Những câu hỏi này sẽ có nhiều lượt xem hơn và lượt xem CÓ THỂ là một chỉ báo tốt hơn cho những câu hỏi thú vị. Hoặc câu hỏi mà một cộng đồng lớn hơn đã xảy ra để tìm thấy thú vị hơn. Có nhiều biến số trong tình huống này và tôi nghĩ sẽ đáng để cố gắng tìm thêm thông tin để phân biệt các trường hợp này. SE có công khai thông tin giới thiệu không?

— rm999
nguồn

SE có công khai thông tin giới thiệu không? Tôi muốn biết mô hình xem bài viết thay vì chỉ trích dẫn, bình luận, v.v.

— d_a_c321