Tính giá trị trung bình của biến số thứ tự


20

Tôi đã đọc ở một số nơi tính toán giá trị trung bình của biến thứ tự là không phù hợp. Tôi đang cố gắng để có được một trực giác về lý do tại sao nó có thể không phù hợp. Tôi nghĩ rằng đó là bởi vì, nói chung, một biến số thứ tự thường không được phân phối và vì vậy việc tính giá trị trung bình sẽ đưa ra một biểu diễn không chính xác. Ai đó có thể đưa ra lý do chi tiết hơn về lý do tại sao việc tính giá trị trung bình của một biến số có thể không phù hợp?


8
Để tính một giá trị trung bình, trước tiên bạn cần một khoản tiền. Để một tổng có ý nghĩa, bạn cần 4 + 2 giống với 3 + 3; tương đương, bạn cần 4-3 = 3-2 = 2-1. Với dữ liệu thứ tự - ngay cả khi các danh mục của nó được gắn nhãn "1", "2", "3", "4" - điều này (không rõ ràng) không nhất thiết phải như vậy.
Glen_b -Reinstate Monica

Và tại sao trung vị sẽ thích hợp hơn trung bình số học?

Câu trả lời:


24

Một câu trả lời ngắn gọn là điều này gây tranh cãi. Trái với lời khuyên mà bạn đề cập, mọi người trong nhiều lĩnh vực thường sử dụng các phương pháp quy mô và thường hạnh phúc có nghĩa là làm những gì họ muốn. Điểm trung bình hoặc tương đương trong nhiều hệ thống giáo dục là một ví dụ.

Tuy nhiên, dữ liệu thứ tự không được phân phối bình thường không phải là lý do hợp lệ, vì giá trị trung bình là

  • được sử dụng rộng rãi cho các bản phân phối không bình thường

  • được xác định tốt về mặt toán học cho rất nhiều phân phối không bình thường, ngoại trừ trong một số trường hợp bệnh lý.

Có thể không nên sử dụng giá trị trung bình trong thực tế nếu dữ liệu chắc chắn không được phân phối bình thường, nhưng điều đó khác nhau.

Một lý do mạnh mẽ hơn cho việc không sử dụng giá trị trung bình với dữ liệu thứ tự là giá trị của nó phụ thuộc vào các quy ước về mã hóa. Các mã số như 1, 2, 3, 4 thường chỉ được chọn vì đơn giản hoặc thuận tiện, nhưng về nguyên tắc, chúng có thể tương đương với 1, 23, 456, 7890 tương ứng với một thứ tự được xác định như có liên quan. Lấy ý nghĩa trong cả hai trường hợp sẽ liên quan đến việc thực hiện các quy ước đó theo nghĩa đen (cụ thể, như thể các con số không phải là tùy ý, nhưng chính đáng), và không có cơ sở nghiêm ngặt để làm điều đó. Bạn cần một thang đo khoảng trong đó sự khác biệt bằng nhau giữa các giá trị có thể được thực hiện theo nghĩa đen để biện minh cho phương tiện. Rằng tôi coi đó là đối số chính, nhưng như đã chỉ ra, mọi người thường bỏ qua nó và cố tình, bởi vì họ thấy có nghĩa là hữu ích, bất kể các nhà lý thuyết đo lường nói gì.

Đây là một ví dụ thêm. Thông thường mọi người được yêu cầu chọn một trong những "không đồng ý mạnh mẽ" ... "rất đồng ý" và (phụ thuộc một phần vào những gì phần mềm muốn) các nhà nghiên cứu mã là 1 .. 5 hoặc 0 .. 4 hoặc bất cứ điều gì họ muốn, hoặc tuyên bố nó như một yếu tố được đặt hàng (hoặc bất kỳ thuật ngữ nào phần mềm sử dụng). Ở đây mã hóa là tùy ý và ẩn từ những người trả lời câu hỏi.

Nhưng thường thì mọi người cũng được hỏi (nói) theo thang điểm từ 1 đến 5, bạn đánh giá thế nào? Ví dụ rất nhiều: trang web, thể thao, các loại thi đấu khác và thực sự là giáo dục. Ở đây mọi người đang được hiển thị một quy mô và được yêu cầu sử dụng nó. Điều này được hiểu rộng rãi rằng những người không có số nguyên có ý nghĩa, nhưng bạn chỉ được phép sử dụng số nguyên như một quy ước. Đây có phải là quy mô thứ tự? Một số người nói có, một số nói không. Mặt khác, một phần của vấn đề là quy mô thứ tự là một khu vực mờ hoặc tranh luận.

Xem xét lại các lớp cho công việc học tập, nói E đến A. Thông thường các lớp như vậy cũng được xử lý bằng số, nói từ 1 đến 5, và mọi người thường tính trung bình cho sinh viên, khóa học, trường học, v.v. và phân tích thêm dữ liệu đó. Mặc dù vẫn đúng là mọi ánh xạ tới điểm số là tùy ý nhưng có thể chấp nhận được miễn là nó giữ được trật tự, tuy nhiên trong thực tế, mọi người chỉ định và nhận điểm đều biết rằng điểm số có giá trị tương đương và biết rằng điểm sẽ được tính trung bình .

Một lý do thực tế cho việc sử dụng các phương tiện là trung bình và chế độ thường là những tóm tắt kém về thông tin trong dữ liệu. Giả sử bạn có thang đo chạy từ không đồng ý mạnh mẽ đến đồng ý mạnh mẽ và đối với mã tiện lợi, các điểm từ 1 đến 5. Bây giờ hãy tưởng tượng một mẫu được mã hóa 1, 1, 2, 2, 2 và một mẫu khác 1, 2, 2, 4, 5. Bây giờ nâng lên bàn tay của bạn nếu bạn nghĩ rằng trung vị và chế độ là những tóm tắt chính đáng duy nhất bởi vì đó là một thang đo thứ tự. Bây giờ hãy giơ tay nếu bạn thấy ý nghĩa cũng hữu ích, bất kể số tiền có được xác định rõ hay không, v.v.

Đương nhiên, giá trị trung bình sẽ là một bản tóm tắt quá mẫn nếu các mã là hình vuông hoặc hình khối từ 1 đến 5, và đó có thể không phải là điều bạn muốn. (Nếu mục đích của bạn là xác định nhanh chóng các thông số cao thì đó có thể là chính xác những gì bạn muốn!) Nhưng đó chính xác là lý do tại sao mã hóa thông thường với mã số nguyên liên tiếp là một lựa chọn thực tế, vì nó thường hoạt động khá tốt trong thực tế. Đó không phải là một cuộc tranh luận mang trọng số với các nhà lý thuyết đo lường, cũng không nên, nhưng các nhà phân tích dữ liệu nên quan tâm đến việc tạo ra các bản tóm tắt giàu thông tin.

Tôi đồng ý với bất cứ ai nói: sử dụng toàn bộ phân phối tần số lớp, nhưng đó không phải là vấn đề.


1
Câu trả lời tuyệt vời và chủ nghĩa thực dụng là quan trọng, nhưng tôi sẽ thêm một lưu ý. Một lý do chính đáng cho việc chỉ sử dụng các phương thức được thiết lập chính thức là bạn có quyền truy cập vào các ước tính về độ chắc chắn & c. Ví dụ: nếu chúng ta có hai GPA, giả sử 4.53 và 4.34, chúng ta có thể muốn biết liệu cái này có "tốt hơn" đáng kể so với cái kia không. Nhưng do thiếu tính chính thức trong việc tính trung bình của các lớp, chúng tôi không có được những thứ như khoảng tin cậy & c.
Stephen McAteer

1
@StephenMcAteer Tôi thấy quan điểm của bạn về các phương pháp được dạy trong một văn bản hoặc khóa học giới thiệu điển hình. Nhưng nếu đó là mong muốn, bootstrapping đã cung cấp một công nghệ cho phép khoảng tin cậy trong gần 40 năm nay.
Nick Cox

3

Giả sử chúng ta lấy các giá trị thứ tự, ví dụ 1 cho sự không đồng ý mạnh mẽ, 2 cho sự không đồng ý, 3 cho sự đồng ý và 4 cho sự đồng ý mạnh mẽ. Nếu bốn người đưa ra câu trả lời 1,2,3 và 4, thì điều đó có nghĩa là gì? Đó là (1 + 2 + 3 + 4) /4=2.50.

Điều đó nên được giải thích như thế nào, khi phản hồi trung bình của bốn người là "không đồng ý hay đồng ý"? Đó là lý do tại sao chúng ta không nên sử dụng trung bình cho dữ liệu thứ tự.


3
Chơi ma quỷ ủng hộ một chút, trong ví dụ này, tôi sẽ hiểu 2.5 là nửa chừng giữa 2, "không đồng ý" và 3, "đồng ý". Điều này có ý nghĩa như một mức trung bình cho rằng chúng tôi có "không đồng ý mạnh mẽ" với "đồng ý mạnh mẽ" và "không đồng ý" với "đồng ý".
TooTone

1
Đồng ý có nghĩa là 2,5 trong bối cảnh này vẫn có ý nghĩa với tôi - nửa chừng giữa không đồng ý và đồng ý, hay nói cách khác là trung lập.
luciano

3
Tôi nghĩ Azeem cần một ví dụ mạnh mẽ hơn. Bạn có thể phản đối 2,5 là trung bình của 1, 2, 3, 4 trẻ em trong một gia đình trên cùng một lý do, làm thế nào để được giải thích vì nó không phải là một trong những giá trị được xác định. Điều đó đặt ra những vấn đề khác nhau.
Nick Cox

2
Tôi nghĩ bạn có thể củng cố câu trả lời của mình và tôi khuyến khích bạn làm điều đó. "bởi vì giá trị trung bình có thể là một giá trị không xác định" không phải là một đối số mạnh ở đây, về mặt logic hay tâm lý và không tập trung vào vấn đề sâu hơn về việc liệu sự khác biệt bằng nhau có thực sự có nghĩa là sự khác biệt như nhau hay không.
Nick Cox

1
Tôi không biết làm thế nào tôi có thể làm cho nó rõ ràng hơn, nhưng (ví dụ) "0-4", "5-19", "20-114" được đặt hàng (thứ tự) trong đó chỉ có một thứ tự tự nhiên cho các phép đo đó (viết tắt của đảo ngược). Nếu bạn muốn gọi chúng là những thứ khác nữa, điều đó tốt với tôi.
Nick Cox

2

Tôi hoàn toàn đồng ý với @Azeem. Nhưng chỉ để lái điểm này về nhà hãy để tôi giải thích thêm một chút.

Giả sử bạn có dữ liệu thứ tự như trong ví dụ từ @Azeem, trong đó thang điểm của bạn dao động từ 1 đến 4. Và cũng giả sử bạn có một vài người đánh giá thứ gì đó (như Ice Cream) theo thang điểm này. Hãy tưởng tượng rằng bạn nhận được kết quả sau:

  • Người A nói 4
  • Người B nói 3
  • Người C nói 1
  • Người D nói 2

Khi bạn muốn diễn giải kết quả, bạn có thể kết luận điều gì đó đến mức:

  • Người A thích Kem hơn Người B
  • Người D thích Kem hơn Người C

Tuy nhiên, bạn không biết gì về khoảng thời gian giữa các xếp hạng. Sự khác biệt giữa 1 và 2 có giống như giữa 3 và 4 không? Có một đánh giá 4 thực sự có nghĩa là người đó thích Ice Cream nhiều hơn 4 lần so với người đánh giá nó là 1? Và cứ thế ... Khi bạn tính trung bình số học, bạn coi các số như thể sự khác biệt giữa chúng là bằng nhau. Nhưng đó là một giả định khá mạnh mẽ với dữ liệu thứ tự và bạn sẽ phải chứng minh điều đó.


Tôi chỉnh sửa các tài liệu tham khảo cho câu trả lời ở trên. Câu trả lời có thể thay đổi thứ tự và trên thực tế, câu trả lời ở trên là tại thời điểm này bên dưới, và điều đó có thể thay đổi. Vì vậy, tham khảo chéo để áp phích, không vị trí.
Nick Cox

0

Tôi đồng ý với khái niệm rằng trung bình số học không thể thực sự được chứng minh trong dữ liệu quy mô thứ tự. Thay vì tính toán có nghĩa là chúng ta có thể sử dụng chế độ hoặc trung vị trong các tình huống như vậy có thể cho chúng ta giải thích ý nghĩa hơn về kết quả của chúng ta.


Điều này không giải quyết câu hỏi tại sao nó có thể không phù hợp.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.