Cân nhắc một hệ thống xếp hạng để ưu tiên các mặt hàng được nhiều người đánh giá cao hơn các mặt hàng được đánh giá cao bởi ít người hơn?


9

Cảm ơn trước vì đã mang theo tôi, tôi không phải là một nhà thống kê dưới bất kỳ hình thức nào và không biết làm thế nào để mô tả những gì tôi đang tưởng tượng, vì vậy Google sẽ không giúp tôi ở đây ...

Tôi đang bao gồm một hệ thống xếp hạng trong một ứng dụng web tôi đang làm việc. Mỗi người dùng có thể đánh giá từng mục chính xác một lần.

Tôi đã tưởng tượng một thang đo có 4 giá trị: "không thích mạnh mẽ", "không thích", "thích" và "thích mạnh mẽ" và tôi đã lên kế hoạch gán các giá trị này lần lượt là -5, -2, +2 và +5 .

Bây giờ, nếu mọi mục sẽ có cùng số xếp hạng, thì tôi sẽ khá thoải mái với hệ thống tính điểm này vì phân biệt rõ ràng các mục được thích nhất và ít thích nhất. Tuy nhiên, các mục sẽ không có cùng số xếp hạng và sự chênh lệch giữa số lượt bình chọn trên các bức ảnh khác nhau có thể khá ấn tượng.

Trong trường hợp đó, so sánh điểm tích lũy trên hai mục có nghĩa là một mục cũ có nhiều xếp hạng tầm thường sẽ có điểm cao hơn nhiều so với mục mới đặc biệt có ít phiếu hơn.

Vì vậy, điều rõ ràng đầu tiên tôi nghĩ là chúng ta lấy trung bình ... nhưng bây giờ nếu một mặt hàng chỉ có một xếp hạng "+5" thì nó có mức trung bình tốt hơn một mặt hàng có điểm 99 "+5" và đánh giá 1 "+2". Theo trực giác đó không phải là một đại diện chính xác cho sự phổ biến của một mặt hàng.

Tôi tưởng tượng vấn đề này là phổ biến và các bạn không cần tôi tin vào nó với nhiều ví dụ hơn, vì vậy tôi sẽ dừng lại ở điểm này và thảo luận chi tiết nếu cần.

Câu hỏi của tôi là:

  1. Loại vấn đề này được gọi là gì, và có một thuật ngữ cho các kỹ thuật được sử dụng để giải quyết nó? Tôi muốn biết điều này để tôi có thể đọc nó.
  2. Nếu bạn tình cờ biết về bất kỳ tài nguyên thân thiện nào về chủ đề này, tôi rất đánh giá cao một liên kết.
  3. Cuối cùng, tôi đánh giá cao bất kỳ đề xuất nào khác về cách thu thập và phân tích hiệu quả loại dữ liệu này.

Câu trả lời:


14

Một cách bạn có thể chống lại điều này là sử dụng tỷ lệ trong mỗi danh mục, điều này không yêu cầu bạn phải đặt số cho mỗi danh mục (bạn có thể để nó được đánh giá 80% là "thích mạnh mẽ"). Tuy nhiên, tỷ lệ bị ảnh hưởng bởi số lượng nhỏ vấn đề xếp hạng . Điều này hiển thị trong ví dụ của bạn, Ảnh có xếp hạng 1 +5 sẽ có điểm trung bình (và tỷ lệ) cao hơn so với ảnh có xếp hạng 99 +5 và 1 +2. Điều này không phù hợp với trực giác của tôi (và tôi nghi ngờ hầu hết mọi người).

Một cách để khắc phục vấn đề kích thước mẫu nhỏ này là sử dụng kỹ thuật Bayes được gọi là " Quy tắc kế thừa của Laplace " (tìm kiếm thuật ngữ này có thể hữu ích). Nó chỉ đơn giản liên quan đến việc thêm 1 "quan sát" vào mỗi danh mục trước khi tính toán xác suất. Nếu bạn muốn lấy trung bình cho một giá trị số, tôi sẽ đề xuất một trung bình có trọng số trong đó các trọng số là xác suất được tính theo quy tắc kế tiếp.

Đối với dạng toán, hãy để nSd,nd,ntôi,nStôinStôi= =1,nSd= =nd= =ntôi= =0nStôi= =99,ntôi= =1,nSd= =nd= =0

Pr("Rất thích")= =nStôi+1nSd+nd+ntôi+nStôi+4

1+11+0+0+0+4= =2599+199+1+0+0+4= =1001041199100

Điểm số tương ứng chỉ được đưa ra bởi trung bình có trọng số, mà tôi đã viết dưới đây là:

Score= =5nStôi+1nSd+nd+ntôi+nStôi+4+2ntôi+1nSd+nd+ntôi+nStôi+4-2nd+1nSd+nd+ntôi+nStôi+4-5nSd+1nSd+nd+ntôi+nStôi+4

Hoặc ngắn gọn hơn như

Score= =5nStôi+2ntôi-2nd-5nSdnSd+nd+ntôi+nStôi+4

55= =1497104~4,8

Điều này có thể là một chút "toán học" vì vậy hãy cho tôi biết nếu bạn cần giải thích thêm.


Đó là một chút "toán học" đối với tôi, và ban đầu tôi không hiểu công thức, nhưng tôi đã đọc nó cẩn thận khoảng ba lần và nó đã nhấp! Đây chính xác là những gì tôi đang tìm kiếm, và lời giải thích của bạn rất rõ ràng, ngay cả đối với một người không phải là nhà toán học hoặc nhà thống kê. Cảm ơn rât nhiều!
Andrew

2
Câu trả lời phi kỹ thuật rất hay, và một cách tiếp cận tôi sẽ không nghĩ về bản thân mình. Tôi chỉ thêm rằng có thể thêm bất kỳ số lượng 'quan sát' giả mạo nào vào mỗi danh mục thay vì 1, bao gồm cả các số không nguyên. Điều này cho phép bạn linh hoạt để quyết định số tiền bạn muốn 'thu nhỏ' về 0 điểm của các mục có ít phiếu. Và nếu bạn tình cờ muốn mô tả nghe có vẻ kỹ thuật về phương pháp này, bạn có thể nói rằng bạn đang thực hiện phân tích dữ liệu Bayes từ phân phối đa phương thức bằng cách sử dụng Dirichlet đối xứng trước đó.
vào

1
Mặc dù chúng có vẻ giống như các quan sát "giả", nhưng chúng có ý nghĩa được xác định rõ khi nó là +1 (trái ngược với +2 hoặc cao hơn, thực sự là các số "giả" hoặc các số từ bộ sưu tập dữ liệu trước đó). Về cơ bản nó mô tả tình trạng kiến thức mà đó là khả năng cho từng danh mục được bình chọn cho, trước để quan sát bất kỳ dữ liệu. Đây chính xác là những gì căn hộ trước trên (N-1) đơn giản làm.
xác suất

Thêm một quan sát nữa, đối với những người tương lai tìm thấy bài đăng này: Khi thực hiện điều này trong mô hình của tôi, tôi đã lấy số điểm cuối cùng và nhân nó lên 20, cho phạm vi từ 100 đến 100 từ điểm kém nhất đến điểm tốt nhất có thể (mặc dù tôi cho rằng về mặt kỹ thuật là những giới hạn bạn không bao giờ có thể đạt được, nhưng bạn hiểu ý). Điều này làm cho đầu ra cho người dùng trong ứng dụng của tôi rất trực quan!
Andrew

@probabilityislogic: chắc chắn bất kỳ tham số tích cực nghiêm ngặt nào đối với Dirichlet trước đó mô tả rằng tất cả các xác suất đều nằm trong khoảng từ 0 đến 1? Và đối số này đề nghị đặt chúng thành 2 / m, trong đó m là số lượng danh mục, thay vì 1: en.wikipedia.org/wiki/iêu
onestop

2

Tôi muốn có một cách tiếp cận đồ họa. Trục x có thể là xếp hạng trung bình và y có thể là số xếp hạng. Tôi đã từng làm điều này với các số liệu thống kê thể thao để so sánh sự đóng góp của các hiện tượng trẻ với các ngôi sao kỳ cựu. Điểm càng gần góc trên bên phải, càng gần với lý tưởng. Tất nhiên, quyết định về mặt hàng "tốt nhất" vẫn sẽ là một quyết định chủ quan, nhưng điều này sẽ cung cấp một số cấu trúc.

Nếu bạn muốn đánh giá xếp hạng trung bình theo một biến khác, thì bạn có thể thiết lập số lượng xếp hạng là biến thứ ba bằng kích thước bong bóng, trong một biểu đồ bong bóng - ví dụ: trong XL hoặc SAS.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.