Giống như Karl Broman đã nói trong câu trả lời của mình, một cách tiếp cận Bayes có thể sẽ tốt hơn rất nhiều so với việc sử dụng khoảng tin cậy.
Vấn đề với khoảng tin cậy
Tại sao có thể sử dụng khoảng tin cậy không hoạt động quá tốt? Một lý do là nếu bạn không có nhiều xếp hạng cho một mặt hàng, thì khoảng tin cậy của bạn sẽ rất rộng, do đó giới hạn dưới của khoảng tin cậy sẽ nhỏ. Do đó, các mục không có nhiều xếp hạng sẽ kết thúc ở cuối danh sách của bạn.
Tuy nhiên, theo trực giác, bạn có thể muốn các mặt hàng không có nhiều xếp hạng gần với mặt hàng trung bình, vì vậy bạn muốn thay đổi xếp hạng ước tính của mặt hàng theo xếp hạng trung bình trên tất cả các mặt hàng (nghĩa là bạn muốn đẩy xếp hạng ước tính của mình lên trước ) . Đây chính xác là những gì một cách tiếp cận Bayes làm.
Phương pháp tiếp cận Bayes I: Phân phối bình thường theo xếp hạng
Một cách để di chuyển xếp hạng ước tính về trước là, như trong câu trả lời của Karl, sử dụng ước tính của mẫu :w * R + ( 1 - w ) * C
- R là giá trị trung bình trên các xếp hạng cho các mục.
- C là giá trị trung bình trên tất cả các mục (hoặc bất cứ điều gì trước khi bạn muốn thu hẹp xếp hạng của mình).
- Lưu ý rằng công thức chỉ là một sự kết hợp trọng số của và .CRC
- Rvmw = vv + m là trọng số được gán cho , trong đó là số lượng đánh giá cho bia và là một loại tham số "ngưỡng" không đổi.Rvm
- Lưu ý rằng khi rất lớn, tức là khi chúng ta có nhiều xếp hạng cho mục hiện tại, thì rất gần với 1, vì vậy xếp hạng ước tính của chúng tôi rất gần với và chúng tôi ít chú ý đến trước . Tuy nhiên, khi nhỏ, rất gần với 0, vì vậy xếp hạng ước tính đặt rất nhiều trọng số lên trước .w R C v w CvwRCvwC
Trên thực tế, ước tính này có thể được đưa ra một cách giải thích Bayes như ước tính sau của xếp hạng trung bình của mặt hàng khi xếp hạng cá nhân đến từ một phân phối bình thường xoay quanh ý nghĩa đó.
Tuy nhiên, giả sử rằng xếp hạng đến từ một phân phối bình thường có hai vấn đề:
- Một phân phối bình thường là liên tục , nhưng xếp hạng là rời rạc .
- Xếp hạng cho một mặt hàng không nhất thiết phải theo hình dạng Gaussian không chính thống. Ví dụ, có thể mặt hàng của bạn rất phân cực, vì vậy mọi người có xu hướng hoặc đánh giá rất cao hoặc xếp hạng rất thấp.
Phương pháp tiếp cận Bayes II: Phân phối đa quốc gia trên xếp hạng
Vì vậy, thay vì giả sử phân phối bình thường cho xếp hạng, hãy giả sử phân phối đa quốc gia . Nghĩa là, với một số mặt hàng cụ thể, có xác suất rằng một người dùng ngẫu nhiên sẽ cho nó 1 sao, xác suất mà một người dùng ngẫu nhiên sẽ cung cấp cho nó 2 sao, v.v.p 2p1p2
Tất nhiên, chúng tôi không biết những xác suất này là gì. Khi chúng tôi nhận được càng nhiều xếp hạng cho mặt hàng này, chúng tôi có thể đoán rằng gần với , trong đó là số người dùng đã cho nó 1 sao và là tổng số người dùng đã xếp hạng Mục này, nhưng khi chúng tôi mới bắt đầu, chúng tôi không có gì. Vì vậy, chúng tôi đặt Dirichlet trước trên các xác suất này.n 1p1 n1nDir(α1,...,αk)n1nn1n D i r ( α1, ... , αk)
Dirichlet này là gì trước? Chúng ta có thể nghĩ mỗi tham số là một "số ảo" về số lần một số người ảo đưa ra mục sao. Ví dụ: nếu , và tất cả các khác đều bằng 0, thì chúng ta có thể nghĩ về điều này khi nói rằng hai người ảo đã cho mục 1 sao và một người ảo đã cho mục 2 sao. Vì vậy, trước khi chúng tôi thậm chí có được bất kỳ người dùng thực tế nào, chúng tôi có thể sử dụng phân phối ảo này để cung cấp ước tính về xếp hạng của mặt hàng. i α 1 = 2 α 2 = 1 α iαtôitôiα1= 2α2= 1αtôi
[Một cách chọn tham số sẽ là đặt bằng với tỷ lệ phiếu bầu chung của sao. (Lưu ý rằng các tham số không nhất thiết là số nguyên.)]α i i α iαtôiαtôitôiαtôi
Sau đó, khi xếp hạng thực tế xuất hiện, chỉ cần thêm số lượng của chúng vào số lượng ảo của Dirichlet của bạn trước đó. Bất cứ khi nào bạn muốn ước tính xếp hạng của mặt hàng của mình, chỉ cần lấy giá trị trung bình trên tất cả các xếp hạng của mặt hàng (cả xếp hạng ảo và xếp hạng thực tế của mặt hàng đó).