Cảm ơn trước vì đã mang theo tôi, tôi không phải là một nhà thống kê dưới bất kỳ hình thức nào và không biết làm thế nào để mô tả những gì tôi đang tưởng tượng, vì vậy Google sẽ không giúp tôi ở đây ...
Tôi đang bao gồm một hệ thống xếp hạng trong một ứng dụng web tôi đang làm việc. Mỗi người dùng có thể đánh giá từng mục chính xác một lần.
Tôi đã tưởng tượng một thang đo có 4 giá trị: "không thích mạnh mẽ", "không thích", "thích" và "thích mạnh mẽ" và tôi đã lên kế hoạch gán các giá trị này lần lượt là -5, -2, +2 và +5 .
Bây giờ, nếu mọi mục sẽ có cùng số xếp hạng, thì tôi sẽ khá thoải mái với hệ thống tính điểm này vì phân biệt rõ ràng các mục được thích nhất và ít thích nhất. Tuy nhiên, các mục sẽ không có cùng số xếp hạng và sự chênh lệch giữa số lượt bình chọn trên các bức ảnh khác nhau có thể khá ấn tượng.
Trong trường hợp đó, so sánh điểm tích lũy trên hai mục có nghĩa là một mục cũ có nhiều xếp hạng tầm thường sẽ có điểm cao hơn nhiều so với mục mới đặc biệt có ít phiếu hơn.
Vì vậy, điều rõ ràng đầu tiên tôi nghĩ là chúng ta lấy trung bình ... nhưng bây giờ nếu một mặt hàng chỉ có một xếp hạng "+5" thì nó có mức trung bình tốt hơn một mặt hàng có điểm 99 "+5" và đánh giá 1 "+2". Theo trực giác đó không phải là một đại diện chính xác cho sự phổ biến của một mặt hàng.
Tôi tưởng tượng vấn đề này là phổ biến và các bạn không cần tôi tin vào nó với nhiều ví dụ hơn, vì vậy tôi sẽ dừng lại ở điểm này và thảo luận chi tiết nếu cần.
Câu hỏi của tôi là:
- Loại vấn đề này được gọi là gì, và có một thuật ngữ cho các kỹ thuật được sử dụng để giải quyết nó? Tôi muốn biết điều này để tôi có thể đọc nó.
- Nếu bạn tình cờ biết về bất kỳ tài nguyên thân thiện nào về chủ đề này, tôi rất đánh giá cao một liên kết.
- Cuối cùng, tôi đánh giá cao bất kỳ đề xuất nào khác về cách thu thập và phân tích hiệu quả loại dữ liệu này.