Có phải xếp hạng trung bình của Amazon là xếp hạng sai lệch?


49

Nếu tôi hiểu chính xác, xếp hạng sách theo thang điểm 1-5 là điểm số Likert. Đó là, 3 đối với tôi có thể không nhất thiết là 3 đối với người khác. Đó là một quy mô IMO quy mô. Một người không nên thực sự quy mô trung bình nhưng chắc chắn có thể có chế độ, trung bình và phần trăm.

Vì vậy, liệu có ổn không khi bẻ cong các quy tắc vì phần lớn dân số hiểu ý nghĩa hơn các thống kê trên? Mặc dù cộng đồng nghiên cứu quở trách mạnh mẽ lấy trung bình dữ liệu dựa trên thang đo Likert, nhưng liệu có tốt không khi làm điều này với số đông (nói thực tế)? Là lấy trung bình trong trường hợp này thậm chí gây hiểu lầm để bắt đầu với?

Có vẻ như một công ty như Amazon sẽ không tìm ra số liệu thống kê cơ bản, nhưng nếu không thì tôi còn thiếu gì ở đây? Chúng ta có thể tuyên bố rằng thang đo thứ tự là một xấp xỉ thuận tiện với thứ tự để biện minh cho việc lấy giá trị trung bình không? Trên cơ sở nào?


3
Nếu 3 đối với bạn không giống với 3 đối với người khác, thì bạn thậm chí không có thang đo: bạn có một bộ sưu tập các phép đo không thể so sánh được và bạn có thể làm rất ít ý nghĩa để tóm tắt chúng. Điều làm cho một tỷ lệ thứ tự là các giá trị (a) có thể được so sánh, vì vậy 3 và 3 của tôi có nghĩa giống nhau, nhưng (b) sự khác biệt về số của các giá trị là vô nghĩa ngoài các dấu hiệu của chúng, do đó (giả sử) hai 3, a 4 và 2, hoặc 5 và 1 có thể được đặt theo bất kỳ thứ tự nào, mặc dù về mặt số lượng, mỗi cặp xếp hạng có cùng giá trị trung bình và trung bình.
whuber

1
@whuber - nhưng không phải 2 người có thể không có cùng quan điểm trên thang điểm 1-9 về các con số sao? 6 đối với tôi thực sự có thể không phải là 6 đối với người khác trừ khi họ có thang đo được xác định trước?
Tiến sĩ

1
Tôi đã đọc một bài đánh giá gần đây trên amazon rằng "Sản phẩm rực rỡ không thể làm hỏng nó. Tôi sẽ không bao giờ cho bất cứ thứ gì 5 sao, vì vậy đã được trao 4". Nếu điều này không sai lệch thì tôi không biết điều đó
Matt Wilko

2
@Wilko Bạn đang nói về sự khác biệt về quan điểm, không phải sự khác biệt về quy mô. Ngay cả khi thang đo được hiệu chỉnh rất cẩn thận, như trong (nói) tính điểm cho thể dục dụng cụ hoặc trượt băng nghệ thuật hoặc thang đo quốc tế để đánh giá độ khó của ghềnh trên sông, và ngay cả khi các chuyên gia được đào tạo để sử dụng thang đo đó, vẫn sẽ có sự thay đổi. Điều đó thường không được hiểu là bằng chứng quy mô là chủ quan: nó được hiểu là sự khác biệt giữa các thẩm phán.
whuber

1
Xin lỗi, đây không thực sự là một câu trả lời, nhưng thật không may, tôi không thể tìm thấy chức năng "bình luận". Gần đây, tôi đã bắt đầu viết luận văn thạc sĩ về các yếu tố chính của đánh giá của khách hàng. Khi xem xét các trường hợp sau đây, tôi cũng bắt đầu nghi ngờ về tầm quan trọng của hệ thống xếp hạng 5 sao của Amazon. - Số lượng đánh giá không đáng tin
cậy

Câu trả lời:


42

Lợi ích của việc sử dụng giá trị trung bình để tóm tắt xu hướng trung tâm của xếp hạng 5 điểm

Như @gung đã đề cập, tôi nghĩ rằng thường có những lý do rất chính đáng để lấy ý nghĩa của một mục năm điểm làm chỉ số của xu hướng trung tâm. Tôi đã vạch ra những lý do này ở đây .

Để diễn dải:

  1. giá trị trung bình dễ tính
  2. Có nghĩa là trực quan và hiểu rõ
  3. Giá trị trung bình là một số duy nhất
  4. Các chỉ số khác thường mang lại thứ tự xếp hạng tương tự của các đối tượng

Tại sao ý nghĩa là tốt cho Amazon

Hãy suy nghĩ về các mục tiêu của Amazon trong báo cáo trung bình. Họ có thể đang nhắm đến

  • cung cấp một đánh giá trực quan và dễ hiểu cho một mặt hàng
  • đảm bảo người dùng chấp nhận hệ thống xếp hạng
  • đảm bảo rằng mọi người hiểu ý nghĩa của xếp hạng để họ có thể sử dụng nó một cách thích hợp để thông báo quyết định mua hàng

Amazon cung cấp một số loại trung bình được làm tròn, tần số đếm cho từng tùy chọn xếp hạng và kích thước mẫu (nghĩa là số lượng xếp hạng). Thông tin này có lẽ đủ để hầu hết mọi người đánh giá cao cả tình cảm chung về mặt hàng và sự tin tưởng vào xếp hạng đó (nghĩa là 4,5 với 20 xếp hạng có nhiều khả năng chính xác hơn 4,5 với 2 xếp hạng; một mặt hàng có 10 5 xếp hạng sao và một xếp hạng 1 sao không có nhận xét vẫn có thể là một mục tốt).

Bạn thậm chí có thể xem ý nghĩa là một lựa chọn dân chủ. Nhiều cuộc bầu cử được quyết định dựa trên ứng cử viên nào có ý nghĩa cao nhất trên thang điểm hai. Tương tự, nếu bạn đưa ra lập luận rằng mỗi người gửi đánh giá đều được bình chọn, thì bạn có thể thấy giá trị trung bình là một hình thức có trọng số của mỗi người bình chọn.

Là sự khác biệt trong quy mô sử dụng thực sự là một vấn đề?

Có một loạt các khuynh hướng xếp hạng được biết đến trong tài liệu tâm lý học (để đánh giá, xem Saal et al 1980), chẳng hạn như xu hướng trung tâm, thiên vị khoan hồng, thiên vị nghiêm ngặt. Ngoài ra, một số người xếp loại sẽ độc đoán hơn và một số người sẽ đáng tin cậy hơn. Một số thậm chí có thể nói dối một cách có hệ thống đưa ra các đánh giá tiêu cực giả hoặc giả. Điều này sẽ tạo ra các dạng lỗi khác nhau khi cố gắng tính xếp hạng trung bình thực cho một mục.

Tuy nhiên, nếu bạn lấy một mẫu dân số ngẫu nhiên, những thành kiến ​​như vậy sẽ hủy bỏ và với một cỡ mẫu của những người xếp loại, bạn vẫn sẽ có được ý nghĩa thực sự.

Tất nhiên, bạn không nhận được một mẫu ngẫu nhiên trên Amazon và có nguy cơ rằng bộ tỷ lệ cụ thể bạn nhận được cho một mặt hàng bị sai lệch một cách có hệ thống để trở nên khoan dung hoặc nghiêm ngặt hơn, v.v. Điều đó nói rằng, tôi nghĩ rằng người dùng của Amazon sẽ đánh giá cao việc người dùng gửi xếp hạng đến từ một mẫu không hoàn hảo. Tôi cũng nghĩ rằng rất có thể với một cỡ mẫu hợp lý mà trong nhiều trường hợp, phần lớn các khác biệt về độ lệch phản hồi sẽ bắt đầu biến mất.

Những tiến bộ có thể vượt quá mức trung bình

Về mặt cải thiện độ chính xác của xếp hạng, tôi sẽ không thách thức khái niệm chung về giá trị trung bình, nhưng tôi nghĩ có nhiều cách khác để ước tính xếp hạng trung bình dân số thực sự cho một mặt hàng (nghĩa là xếp hạng trung bình sẽ đạt được là một mẫu đại diện lớn được yêu cầu đánh giá các mặt hàng).

  • Cân nặng dựa trên sự đáng tin cậy của họ
  • Sử dụng hệ thống xếp hạng Bayes ước tính xếp hạng trung bình dưới dạng tổng trọng số của xếp hạng trung bình cho tất cả các mục và giá trị trung bình từ mục cụ thể và tăng trọng số cho mục cụ thể khi số lượng xếp hạng tăng
  • Điều chỉnh thông tin của người đánh giá dựa trên bất kỳ xu hướng xếp hạng chung nào trên các mặt hàng (ví dụ: 5 từ một người thường cho 3 giây sẽ có giá trị cao hơn so với người thường đưa ra 4 giây).

Do đó, nếu độ chính xác trong xếp hạng là mục tiêu chính của Amazon, tôi nghĩ cần nỗ lực để tăng số lượng xếp hạng cho mỗi mặt hàng và áp dụng một số chiến lược trên. Cách tiếp cận như vậy có thể đặc biệt phù hợp khi tạo ra thứ hạng "tốt nhất". Tuy nhiên, đối với xếp hạng khiêm tốn trên trang, có thể mẫu có nghĩa là đáp ứng tốt hơn các mục tiêu của sự đơn giản và minh bạch.

Người giới thiệu

  • Saal, FE, Downey, RG & Lahey, MA (1980). Xếp hạng xếp hạng: Đánh giá chất lượng tâm lý của dữ liệu xếp hạng .. Bản tin tâm lý, 88, 413.

1
+1. Tôi nghĩ rằng điều này vượt xa / mở rộng câu trả lời trước đó của bạn một cách rất hay. Tôi đặc biệt thích phần "tại sao ý nghĩa tốt cho Amazon", trong đó liệt kê rõ ràng hơn những gì tôi đã cố gắng đạt được trong câu cuối cùng của mình. "Cách sử dụng khác nhau của một thang đo" cũng khá sâu sắc; Tôi sẽ đánh giá cao một trích dẫn cho một đánh giá về văn học đó, nếu bạn biết về một tài liệu tốt. Mặc dù vậy, tôi lưu ý rằng phần cuối cùng có phần căng thẳng với phần 2.
gung - Phục hồi Monica

2
Cảm ơn. Tôi đã thêm một tài liệu tham khảo cho tài liệu thiên vị đánh giá, và thêm một cái gì đó ở cuối cố gắng dung hòa hai quan điểm.
Jeromy Anglim

2
+1 @JeromyAnglim - một viễn cảnh kỹ lưỡng đưa ra ánh sáng về các khía cạnh khác nhau của vấn đề. Thanh danh!
Tiến sĩ

+1, câu trả lời tuyệt vời. Mặc dù tôi đã tìm thấy một câu hơi sai lệch. Khi bạn nói "Tuy nhiên, nếu bạn lấy một mẫu dân số ngẫu nhiên, những thành kiến ​​như vậy sẽ bị loại bỏ và với một cỡ mẫu của những người xếp loại, bạn vẫn sẽ có được ý nghĩa thực sự." - Tôi không nghĩ rằng áp dụng cho tất cả các thành kiến ​​ngay cả khi bạn có một mẫu dân số ngẫu nhiên.
Michael Giám mục

1
@MichaelBishop Cảm ơn, tôi đồng ý ngôn ngữ của tôi hơi cẩu thả ở đó. Tôi đoán nó phụ thuộc vào ý nghĩa của "ý nghĩa thực sự". Tôi có thể thấy làm thế nào nếu bạn có những người giả mạo trong dân số, điều này có thể làm cho dân số không được điều chỉnh có nghĩa là tránh xa một "ý nghĩa thực sự" giả định. Tôi đã suy nghĩ nhiều hơn rằng bất kỳ sự thiên vị có hệ thống nào của các cá nhân áp dụng cho tất cả các mặt hàng sẽ hủy bỏ để cho phép thứ tự xếp hạng không thiên vị của các mặt hàng dựa trên ý nghĩa kết quả.
Jeromy Anglim

15

Về mặt kỹ thuật ở đây, những xếp hạng đó không thực sự là thang đo Likert ; họ chỉ là xếp hạng thứ tự. Bây giờ, đã nói rằng, quan điểm của bạn về cơ bản là chính xác. Tuy nhiên, tôi thường nghĩ quá nhiều về vấn đề này. Một điều cần lưu ý là người ta thường hiểu rằng trung bình của một số mục thứ tự thể xấp xỉ nhau, và do đó, khi có nhiều xếp hạng, giá trị trung bình trở thành một đại diện hợp lý hơn. Tôi đã tìm thấy câu trả lời này của @JeromyAnglim là tuyệt vời (thực sự, câu hỏi và tất cả các câu trả lời tiếp viên đều có giá trị đọc). Đối với một điều trị lý thuyết hơn, xem ở đây. Một lưu ý khác, tôi thích Amazon, nhưng tôi thấy không có lý do gì để mong đợi sự tinh tế thống kê từ họ, đặc biệt là về thiết kế trang web cơ bản - điểm quan trọng là sự tiện dụng của người tiêu dùng, không gây ấn tượng với các giáo sư thống kê.


2
Amazon là một trong những công ty hàng đầu trong ngành công nghệ (internet) trong thiết kế thử nghiệm cho quảng cáo trực tuyến và sử dụng trang web. Bạn có thể chắc chắn rằng họ thực sự khá phức tạp trong cách tiếp cận thống kê của họ. :-) Quan điểm của bạn là một điểm tốt. Để đi một bước nhỏ hơn, bạn có thể tưởng tượng nếu Amazon đang làm một cái gì đó "tinh vi hơn" và ai đó đã kiểm tra chúng bằng cách sử dụng mức trung bình đơn giản, thấy rằng một số mặt hàng được xếp hạng "cao hơn" so với mức trung bình của chúng và những thứ khác "thấp hơn", tăng phiền phức và rời khỏi Amazon để cố gắng giải thích "những thành kiến ​​ẩn giấu" của họ liên quan đến sản phẩm?
Đức hồng y

1
Các dịch vụ khác, ví dụ Netflix, tránh vấn đề này bằng cách chỉ cung cấp dữ liệu "tóm tắt". :)
Đức hồng y

@cardinal, điều đó rất thú vị, tôi không biết điều đó về Amazon.
gung - Phục hồi Monica

15

Mọi người đều có ý kiến ​​tốt về điều này. Tôi thực sự không nghĩ rằng tôi có thể thêm nhiều hơn nữa. Tuy nhiên, tôi sẽ đăng bài này :


7
Tôi đoán truyện tranh nổi bật rằng một số người là người đánh giá kém về chất lượng của một mặt hàng, và bằng cách tính trung bình trên nhiều người như vậy, bạn có điểm trung bình kém. Nói chung, sự khôn ngoan của đám đông cho thấy rằng trung bình thực hiện khá tốt trong đó ít nhất một tỷ lệ hợp lý của mọi người có một số kiến ​​thức. Xếp hạng trọng số theo độ tin cậy cũng có thể là một chiến lược để khắc phục các vấn đề.
Jeromy Anglim

1
Tùy chọn khác là sử dụng đề xuất kiểu Netflix, bằng cách so sánh xếp hạng của bạn với xếp hạng của người dùng khác và sau đó tính trung bình xếp hạng được cung cấp bởi người dùng có lựa chọn tương tự như bạn.
rahul

1
@rahul Đó là một điểm tốt. Trong câu trả lời của tôi, đôi khi tôi cho rằng xếp hạng phần lớn là điểm thật + lỗi, ngay cả khi có lỗi cấu trúc. Nhưng khi nói đến các lĩnh vực mà sở thích cá nhân là một phần của định nghĩa về chất lượng, điều này không phải lúc nào cũng có ý nghĩa.
Jeromy Anglim

Tôi thích điều đó, và đó là lý do tại sao (với tư cách là người tiêu dùng) tôi cố gắng đọc các đánh giá và không chỉ nhìn vào số lượng sao. Nhưng tôi nghĩ thật mỉa mai là trong trường hợp này, các phương pháp trung bình, chế độ và phân vị "tinh vi" hơn đều cho kết quả tồi tệ hơn bình thường ;-)
Darren Cook

3

Theo kinh nghiệm của tôi, giá trị trung bình của dữ liệu theo thang đánh giá thường tương quan chặt chẽ nhất với mức độ của các số liệu trong thế giới thực mà chúng tôi cố gắng liên kết với thang đánh giá. Chúng tôi đã tìm thấy rất nhiều mối quan hệ tuyến tính, và do đó trung bình là một trong những cách tốt hơn để tóm tắt dữ liệu. Điều đó đang được nói, như Jeromy đã chỉ ra, hầu hết các cách phân tích xu hướng trung tâm của thang đánh giá sẽ cho kết quả tương tự (thứ tự xếp hạng, v.v.) trong hầu hết thời gian.

Ngoài ra, tôi nghi ngờ Amazon có lẽ không phải là tất cả những gì liên quan đến giá trị khoa học theo cách này hay cách khác. Cuối cùng, mục tiêu của Amazon là khiến mọi người mua sắm nhiều hơn trên Amazon.com và cách đánh giá giúp đạt được điều đó có thể sẽ không thay đổi với bất kỳ cách sử dụng tóm tắt một số nào. Sản phẩm tốt sẽ được thưởng, sản phẩm thực sự xấu bị trừng phạt và người mua lo lắng sẽ có cơ hội để xem xét ưu và nhược điểm chi tiết hơn.


2

Xếp hạng của Amazon là sai lệch do các công ty chơi game hệ thống. Khi khách hàng được giảm giá và hàng hóa miễn phí để đổi lấy các đánh giá 5 sao, "số liệu thống kê" về số thứ hạng hoặc phương tiện sẽ trở thành tranh luận.


1
Bạn có bất kỳ dữ liệu về tần suất những điều như vậy xảy ra?
Michael Giám mục

1

Bạn làm cho một điểm tốt. Lấy giá trị trung bình của số thứ tự là hơi sai lệch. Bất kỳ tóm tắt nào của một số bảng xếp hạng sẽ bị ảnh hưởng bởi thực tế là chủ quan 3 của tôi có thể thực sự tương đương với 4. Vì vậy, việc kết hợp các điểm số khác nhau có lẽ là vấn đề lớn nhất. Giải thích trung bình của 3 và 4 là 3,5 gần như không quá lớn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.