Tại sao tuổi trung vị là một thống kê tốt hơn so với tuổi trung bình?


41

văn bản thay thế

văn bản thay thế

Rõ ràng trung vị dường như là số liệu thống kê của sự lựa chọn khi nói đến tuổi.

Tôi không thể tự giải thích tại sao ý nghĩa số học sẽ là một thống kê tồi tệ hơn. Tại sao nó như vậy?

Ban đầu được đăng ở đây vì tôi không biết trang web này tồn tại.


4
Có vẻ như bạn đã có một câu trả lời hợp lý trên các trang web khác?
Shane

1
@Shane: Nhưng có lẽ các trang web khác nhau có tiềm năng thu được các câu trả lời khác nhau từ các quan điểm khác nhau?
whuber

Câu trả lời:


42

Thống kê không cung cấp một câu trả lời tốt cho câu hỏi này, theo ý kiến ​​của tôi. Một giá trị trung bình có thể có liên quan trong các nghiên cứu về tỷ lệ tử vong chẳng hạn, nhưng độ tuổi không dễ đo lường như bạn nghĩ. Chẳng hạn, người già, người mù chữ và người ở một số nước thuộc thế giới thứ ba có xu hướng làm tròn tuổi của họ thành bội số của 5 hoặc 10, chẳng hạn.

Giá trị trung bình có khả năng chống lại các lỗi như vậy hơn giá trị trung bình. Hơn nữa, độ tuổi trung bình thường là 20 - 40, nhưng mọi người có thể sống tới 100 tuổi trở lên (tỷ lệ ngày càng tăng và đáng chú ý của dân số các nước hiện đại hiện đang sống trên 100). Những người ở độ tuổi như vậy có ảnh hưởng trung bình gấp 1,5 đến 4 lần so với người trung bình so với những người rất trẻ. Do đó, trung vị là một thống kê cập nhật hơn một chút về phân bố tuổi của một quốc gia và độc lập hơn một chút về tỷ lệ tử vong và tuổi thọ so với giá trị trung bình.

Cuối cùng, trung vị cho chúng ta một bức tranh tốt hơn một chút về sự phân bố tuổi của nó trông như thế nào: ví dụ, khi bạn nhìn thấy trung vị 35, bạn biết rằng một nửa dân số già hơn 35 và bạn có thể suy luận một số điều về tỷ lệ sinh, lứa tuổi của cha mẹ, và như vậy; nhưng nếu giá trị trung bình là 35, bạn không thể nói nhiều như vậy, bởi vì 35 có thể bị ảnh hưởng bởi một khối dân số lớn ở tuổi 70, chẳng hạn, hoặc có lẽ là khoảng cách dân số ở một độ tuổi do chiến tranh hoặc dịch bệnh cũ.

Do đó, đối với các lý do nhân khẩu học, không thống kê, một trung vị có vẻ xứng đáng hơn với vai trò của một giá trị omnibus để tóm tắt độ tuổi của dân số tương đối lớn.


1
Tôi nghĩ bạn có nghĩa là "Trung vị có khả năng chống lại các lỗi như vậy hơn là trung bình". Mặc dù vậy, tôi đồng ý với ý kiến ​​của bạn và tôi tin rằng điều tra dân số Hoa Kỳ thường báo cáo trung bình cho nhiều danh mục trong các báo cáo chính thức (không chỉ độ tuổi) vì tất cả các lý do tương tự. Thu nhập thậm chí có thể là một ví dụ tốt hơn so với tuổi để minh họa những điểm như vậy.
Andy W

Bạn đã thay thế một thực tế, giá trị trung bình rất nhạy cảm với các phân phối ngoại lệ / sai lệch cho một tuyên bố giá trị về sự ưu tiên cho trung bình so với giá trị trung bình. Trong thực tế, bạn đã lập luận rằng giá trị trung bình không được ưa thích vì nó không phải là trung vị (giống như những người nói rằng chỉ nên sử dụng giá trị trung bình trên các phân phối đối xứng, nghĩa là khi giá trị trung bình và trung bình bằng nhau).
Alexis

1
@Alexis Tôi không làm theo lời chỉ trích của bạn. Bạn có thể giải thích? Rốt cuộc, câu trả lời này cung cấp nhiều hơn "một thực tế": nó chứa khá nhiều trong số họ, cùng với một phân tích về ý nghĩa của chúng. Và cụ thể là "tuyên bố giá trị" nào mà bạn đề cập?
whuber

Mối quan tâm của tôi là các đặc điểm thực tế của trung bình và trung bình (ví dụ: trước đây rất nhạy cảm với các ngoại lệ, viz "Những người ở độ tuổi như vậy có ảnh hưởng từ 1,5 đến 4 lần so với trung bình so với những người trẻ tuổi.") trở thành những giá trị về giá trị của chúng, viz "trung vị cho chúng ta một bức tranh tốt hơn một chút về sự phân bố tuổi của nó trông như thế nào". Cái trước là một thực tế, càng về sau định giá của thực tế đó. Mối quan tâm của tôi là với sự chuyển đổi giữa hai. Hơn: stats.stackexchange.com/questions/96371/...
Alexis

1
@Alexis Xin lưu ý rằng câu hỏi này không phải là về việc sử dụng giá trị trung bình hoặc trung bình nói chung, mà là về các tiện ích của chúng trong việc đánh giá phân phối độ tuổi. Xin lưu ý rằng ngay từ đầu câu trả lời của tôi thừa nhận không có thuốc chữa bách bệnh: rằng giá trị trung bình là hữu ích và phù hợp cho các mục đích cụ thể. Tôi không nghĩ rằng tôi đã phạm phải tội lỗi mà bạn buộc tội tôi, đó là ứng dụng mơ hồ của "tốt hơn": Tôi đã quy định cẩn thận cách trung bình và ý nghĩa khác nhau trong bối cảnh này . Nghe có vẻ như bạn có một vấn đề nổi lên liên quan đến phương tiện so với trung bình, nhưng đây không phải là nơi để làm điều đó.
whuber

16

John đã cho bạn một câu trả lời tốt trên trang web chị em.

Một khía cạnh mà ông không đề cập rõ ràng là sự mạnh mẽ: trung bình là thước đo của vị trí trung tâm tốt hơn trung bình vì nó có điểm phân tích cao hơn (50%) trong khi giá trị trung bình có tỷ lệ rất thấp là 0 (xem wikipedia để biết chi tiết ).

Theo trực giác, nó có nghĩa là các quan sát xấu cá nhân không làm lệch trung vị trong khi chúng làm cho trung bình.


9
Sự cố không phải là một vấn đề cho một thống kê mô tả của toàn bộ dân số.
whuber

12

Đây là câu trả lời của tôi lần đầu tiên được đăng trên math.stackexchange:

Trung bình là những gì nhiều người thực sự có trong tâm trí khi họ nói "có nghĩa là." Dễ dàng hơn để giải thích trung vị: một nửa dân số ở trên độ tuổi này và một nửa dưới đây. Có nghĩa là tinh tế hơn một chút.

Mọi người tìm kiếm sự đối xứng và đôi khi áp đặt sự đối xứng khi nó không có ở đó. Sự phân bố tuổi trong dân số không cân xứng, vì vậy giá trị trung bình có thể gây hiểu nhầm. Phân phối tuổi là một cái gì đó giống như một kim tự tháp. Rất nhiều trẻ em, không nhiều người già. (Hoặc ít nhất đó là cách nó ở trạng thái ổn định. Ở Mỹ, thế hệ bùng nổ trẻ em sau Thế chiến thứ hai đã bóp méo sự phân phối này khi chúng già đi. Một số người đã gọi đây là "hình vuông kim tự tháp" bởi vì những người bùng nổ đã tạo ra đỉnh của kim tự tháp rộng hơn so với trước đây.)

Với một phân phối bất đối xứng, có thể tốt hơn để báo cáo trung vị vì đó là một thống kê đối xứng. Trung vị đối xứng ngay cả khi phân phối lấy mẫu không.


Theo nghĩa nào thì trung bình là một thống kê "đối xứng"? Đó chắc chắn không phải là trường hợp phân phối có xu hướng được phân phối đối xứng về trung vị của họ (cũng như về phương tiện của họ). Nếu bạn chỉ đơn thuần là những gì bạn đã viết trong một nhận xét khác rằng "trung vị chia dân số làm đôi" ( định nghĩa trung vị), thì lập luận của bạn nghe có vẻ tuần hoàn: trung vị là tốt vì trung vị là trung vị!
whuber

7

Tại sao một cái rìu tốt hơn một cái rìu?

Điều đó tương tự với câu hỏi của bạn. Họ chỉ có ý nghĩa và làm những điều khác nhau. Nếu một người đang nói về trung vị thì câu chuyện họ đang cố gắng truyền tải, mô hình mà họ đang cố gắng áp dụng vào dữ liệu, khác với một phương tiện.


4

Để có một ví dụ cụ thể, hãy xem xét độ tuổi trung bình của Congo (DRC) và Nhật Bản. Một người bị tàn phá bởi nội chiến, người kia phát triển tốt với dân số già. Có nghĩa là không thú vị lắm cho một so sánh táo với táo. Mặt khác, trung vị có thể là thông tin như một thước đo của xu hướng trung tâm vì theo định nghĩa chúng ta có một nửa ở trên, một nửa dưới đây. Bài viết trên wikipedia về Kim tự tháp dân số có thể được khai sáng (xem phần về phình thanh niên, dân số già).


3

Các kho lưu trữ dữ liệu y tế công cộng ở Hoa Kỳ đang chuyển sang AGE theo định dạng năm năm gia tăng do tác động của các quy định của HIPAA liên quan đến việc cố tình làm mờ và che giấu dữ liệu vì lý do riêng tư cá nhân.

Trước thách thức này với những gì đã có trong quá khứ (trước HIPAA), một yếu tố dữ liệu đo lường ở mức độ khá dựa trên sự khác biệt giữa ngày sinh và ngày chết, chúng ta có thể cần xem xét lại AGE như một biến tỷ lệ có thể được mô tả bằng tham số tất cả trong các bộ dữ liệu y tế công cộng, ủng hộ các mô hình mô tả AGE theo kiểu không tham số, như một mức độ đo lường thông thường. Tôi biết điều này có vẻ "trên đỉnh" đối với nhiều phe phái trong cộng đồng tin học y sinh, nhưng ý tưởng này có thể có một số giá trị về mặt "diễn giải" như được mô tả trong các ý kiến ​​trên.

Điều gì về tất cả các sức mạnh phân tích có sẵn cho các phương pháp không tham số? Đúng, đúng là mọi người trong chúng ta hầu như sẽ cố gắng áp dụng các kỹ thuật GLM (mô hình tuyến tính tổng quát) cho một biến thể hiện chính chúng ta trong các bản phân phối hành xử theo cách AGE làm.

Đồng thời hình dạng của phân phối đó và cách hình dạng đó được xác định bởi các hiệu ứng tương tác đa chiều đối với các khối u đa chiều và các nhóm nhân phụ có trong phân phối, phải được xem xét. Phải làm gì với những tập dữ liệu rất phức tạp này?

Khi một yếu tố dữ liệu không đáp ứng được "các giả định của mô hình", chúng tôi sẽ quét dần dần (tôi đã nói qua, không phải xuống; chúng ta nên sử dụng phương pháp cơ hội bình đẳng, mỗi công cụ xuất phát từ nhà máy có biểu mẫu tuân theo quy tắc chức năng) của các mô hình có thể khác để tìm ra mô hình "không thất bại" các thử nghiệm giả định.

Trong định dạng hiện tại trong các bộ dữ liệu y tế công cộng, chúng tôi thực sự cần (như một cộng đồng trực quan hóa dữ liệu) để đưa ra một mô hình chuẩn hơn để xử lý AGE theo gia số năm năm (5YI). Phiếu bầu của tôi cho trực quan hóa dữ liệu của AGE (được đưa ra định dạng 5YI mới) là sử dụng biểu đồ và biểu đồ hộp và râu. Vâng, điều này có nghĩa là trung bình. (Không có ý định chơi chữ!)

Đôi khi một bức tranh thực sự đáng giá một ngàn từ, và một bản tóm tắt là một bản tóm tắt của một ngàn từ. Biểu đồ hộp và ria cho thấy "hình dạng" của phân phối là một biểu tượng tượng trưng có ý nghĩa của biểu đồ ở mức độ phân giải gần như biểu tượng. So sánh sự phân phối của các mức tăng tuổi năm năm bằng cách hiển thị các ô "cạnh nhau" và các ô râu trong đó người ta có thể so sánh trực quan các mẫu từ 75 đến 50 (trung vị) với các ntiles thứ 25 thấp hơn, sẽ tạo ra một "tiêu chuẩn phổ quát" thanh lịch để so sánh AGE qua thế giới. Đối với những người trong chúng ta tiếp tục tận hưởng cảm giác hồi hộp về biểu diễn dữ liệu thông qua cơ chế văn bản của hiển thị dạng bảng, sơ đồ "thân và lá" cũng có thể được sử dụng khi được sử dụng như một yếu tố đồ họa trực quan hoạt hình trong "tia lửa"

AGE đã đến tuổi. Nó cần được khám phá thêm với các thuật toán tính toán mạnh mẽ hơn hiện có.


1
Đây là một bài viết tốt, nhưng nó dường như không có bất kỳ kết nối nào với câu hỏi ban đầu.
Andy W

Tôi nghĩ rằng nó gián tiếp nhưng thích hợp giải quyết mục đích rõ ràng của câu hỏi, @Andy. Lỗi, nếu có, nằm ở chính câu hỏi, điều này không rõ ràng vì nó không chỉ rõ ý nghĩa trong đó một nghĩa có thể "tệ hơn" so với trung bình. Do đó, một câu trả lời hay phải khám phá điều này và xem xét mục đích tóm tắt phân bố độ tuổi với một thống kê duy nhất. Ở đây, điều này dẫn đến một cuộc thảo luận về "tuổi" có nghĩa là gì và cách so sánh phân phối tuổi một cách thích hợp.
whuber

3

Tôi không nghĩ rằng có một lý do mô tả tốt cho việc chọn trung bình trên trung bình cho phân phối tuổi. Có một thực tế khi so sánh dữ liệu báo cáo.

Nhiều quốc gia báo cáo dân số của họ trong khoảng thời gian 5 năm tuổi với ban nhạc mở đầu kết thúc. Điều này gây ra một số khó khăn khi tính giá trị trung bình từ các khoảng, đặc biệt là trong khoảng thời gian trẻ nhất (bị ảnh hưởng bởi tỷ lệ tử vong ở trẻ sơ sinh), "khoảng" trên cùng (nghĩa của khoảng 80+ "khoảng" là gì?) Và khoảng thời gian gần nhất ( giá trị trung bình của mỗi khoảng thường thấp hơn giữa).

Việc ước tính trung vị dễ dàng hơn nhiều bằng cách nội suy trong khoảng trung bình, thường xấp xỉ bằng cách giả sử phân bố tuổi phẳng hoặc hình thang trong khoảng đó (tỷ lệ tử vong ở nhiều quốc gia tương đối thấp trong độ tuổi trung bình, làm cho điều này gần đúng hơn so với tuổi trung bình dành cho người trẻ hay già).


3

Để đưa ra một câu trả lời hữu ích, câu hỏi ban đầu đòi hỏi chúng ta phải biết câu hỏi đằng sau câu hỏi. Nói cách khác, "Tại sao bạn muốn một số loại thống kê tóm tắt so sánh sự phân bố tuổi của các quốc gia khác nhau?" Trung vị có thể là hữu ích nhất cho một số câu hỏi. Giá trị trung bình có thể hữu ích nhất cho người khác. Và có lẽ có những câu hỏi trong đó "phần trăm trên (hoặc dưới) một số tuổi cụ thể" sẽ là thống kê hữu ích nhất.


2

Bạn đang nhận được câu trả lời tốt ở đây, nhưng hãy để tôi thêm 2 xu của tôi. Tôi làm việc trong ngành dược, chuyên về những thứ như thể tích máu, tỷ lệ loại trừ, mức độ hiệu lực của thuốc, hiệu quả của thuốc tối đa và các thông số như thế.

Chúng tôi phân biệt giữa các biến có thể nhận bất kỳ giá trị cộng hoặc trừ nào, so với các giá trị chỉ có thể dương. Một ví dụ về một biến có thể mang bất kỳ giá trị nào, cộng hoặc trừ, sẽ là hiệu ứng thuốc, có thể là dương, bằng 0 hoặc âm. Một ví dụ về một biến chỉ có thể thực sự dương tính là lượng máu hoặc tốc độ loại bỏ thuốc.

Chúng tôi mô hình hóa những điều này với các phân phối thường là bình thường hoặc logic, bình thường cho những người có giá trị bất kỳ và logic bất thường cho những người tích cực duy nhất. Số logic bất thường là số E được lấy theo lũy thừa của một số được phân phối bình thường và đó là lý do tại sao nó chỉ có thể dương.

Đối với một biến được phân phối bình thường, trung vị, giá trị trung bình và chế độ là cùng một số, vì vậy việc bạn sử dụng là gì không quan trọng. Tuy nhiên, đối với một biến phân phối lognormally, giá trị trung bình lớn hơn cả trung vị và chế độ, vì vậy nó không thực sự rất hữu ích. Trong thực tế, trung vị là nơi bình thường cơ bản có ý nghĩa của nó, vì vậy nó là một biện pháp hấp dẫn hơn nhiều.

Vì tuổi tác (có lẽ không bao giờ có thể âm tính), phân phối logic có lẽ là một mô tả tốt hơn về nó so với bình thường, do đó, trung bình (E theo trung bình của bình thường cơ bản) là hữu ích hơn.


5
Sự phân bố tuổi chắc chắn không đăng nhập bình thường.
Rob Hyndman

1
Tôi không nghĩ rằng bạn có thể suy ra tuổi tác được phân phối thông thường chỉ từ thực tế là nó luôn luôn tích cực. Gamma và các bản phân phối Weibull cũng luôn tích cực, vậy tại sao không chọn những bản đó?
nico

@Rob: @nico: Tôi chắc chắn bạn đã đúng. Đó là một sự lựa chọn nghèo nàn của ví dụ. Thông thường chúng tôi mô hình các tham số dược lý như khối lượng và giải phóng mặt bằng.
Mike Dunlavey

2

Tôi đã được dạy rằng trung vị nên được sử dụng với phạm vi và có nghĩa là với độ lệch chuẩn. Khi chúng ta nói về tuổi tác, tôi nghĩ rằng phạm vi là một cách phù hợp hơn để thể hiện sự lan truyền và dễ hiểu hơn cho hầu hết. Ví dụ, trong dân số nghiên cứu, tuổi trung bình là 53 (SD 5.4) hoặc tuổi trung bình là 48 (khoảng 23-77). Vì lý do đó, tôi thích sử dụng trung bình hơn là có nghĩa. Nhưng tôi sẽ rất quan tâm ở đây những gì một nhà thống kê hoặc thống kê chuyên nghiệp sẽ nói gì về việc sử dụng trung bình với phạm vi? Tôi thấy điều này khá một chút trong các bài báo khoa học.


Chào mừng đến với CV, Susanne. Nếu bạn đã đăng bài này trong nỗ lực để có câu trả lời, thì vui lòng xóa nó và đăng lại dưới dạng câu hỏi mới. Hướng dẫn về cách sử dụng trang web này có sẵn trong trung tâm trợ giúp của chúng tôi .
whuber

1

Câu trả lời của John trên math.stackexchange có thể được xem như sau:

Khi bạn có một phân phối sai lệch, trung vị có thể là một thống kê tóm tắt tốt hơn so với giá trị trung bình.

Lưu ý rằng khi anh ta nói rằng có nhiều trẻ sơ sinh hơn người lớn, về cơ bản, anh ta cho rằng phân bố tuổi là phân phối sai lệch.


Thật ra tôi nghĩ rằng ngày nay, sự sai lệch ở rất nhiều quốc gia thiên về người cao niên, không phải là tots.
JM không phải là một nhà thống kê

Có lẽ, nó bị lệch theo cách khác nhưng điểm chung là đứng. Đối với các phân phối lệch, một trung vị có thể có ý nghĩa hơn trung bình.

Tôi vừa cập nhật câu trả lời của tôi trên math.stackexchange để nhấn mạnh điểm đó. Mọi người tìm kiếm sự đối xứng và có thể áp đặt đối xứng không chính xác khi nó không có ở đó. Khi bạn báo cáo trung vị, bạn đưa ra một câu trả lời đối xứng - trung vị chia dân số làm đôi - mặc dù phân phối không đối xứng.
John D. Cook

Câu trả lời này luôn có vẻ hơi khó hiểu đối với tôi: khi các phân phối không bị lệch (nghĩa là chúng đối xứng), nghĩa là bằng với trung vị, vì vậy nói rằng trung vị là "tốt hơn" khi phân phối bị lệch là cách nói ngược "chỉ sử dụng trung vị. "
Alexis

1

Tôi hy vọng tuổi trung bình sẽ bị ảnh hưởng bởi các ngoại lệ trong tập dữ liệu của bạn trong khi đây không phải là trường hợp trung bình. Chúng ta hãy lấy một ví dụ về một bộ dữ liệu bệnh nhân được tiêm chủng: 1,2,3,4,4,5,6,6,6,78 năm trung bình sẽ là: 11,5 và tuổi trung bình của những bệnh nhân này là 4,5. tuổi trung bình này đã bị ảnh hưởng bởi ngoại lệ 78. trung vị là tốt nhất trong khi xử lý các tập dữ liệu của phân phối lệch.


Xem phản hồi của tôi với User28.
Alexis

0

Chắc chắn trong trường hợp phân tích nhân khẩu học, tôi sẽ nghĩ rằng cả giá trị trung bình và trung bình sẽ có giá trị, đặc biệt là kết hợp với nhau, nếu bạn đang tìm kiếm các ngoại lệ hoặc các khu vực tăng trưởng có thể bị đánh dấu sai bởi trung vị. Trong các cộng đồng có cộng đồng hưu trí lớn hoặc trong khu vực có vụ nổ tỷ lệ sinh, một mình trung bình có thể không cung cấp cho bạn toàn bộ hình ảnh, và đó là nơi mà ý nghĩa, so sánh, có thể rất hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.