Tại sao thực tế là 1 trung vị thấp hơn so với trung bình khác, có nghĩa là hầu hết trong nhóm 1 ít hơn hầu hết trong nhóm 2?


9

Tôi tin rằng các ô vuông dưới đây có thể được hiểu là "hầu hết đàn ông nhanh hơn hầu hết phụ nữ" (trong bộ dữ liệu này), chủ yếu vì thời gian của đàn ông trung bình thấp hơn thời gian của phụ nữ trung bình. Nhưng khóa học EdX về bài kiểm tra R và thống kê đã nói với tôi rằng điều đó không đúng. Xin hãy giúp tôi hiểu tại sao trực giác của tôi không chính xác.

Đây là câu hỏi:

Hãy xem xét một mẫu kết thúc ngẫu nhiên từ New York City Marathon năm 2002. Bộ dữ liệu này có thể được tìm thấy trong gói Sử dụng. Tải thư viện và sau đó tải tập dữ liệu nym.2002.

library(dplyr)
data(nym.2002, package="UsingR")

Sử dụng boxplots và biểu đồ để so sánh thời gian hoàn thành của nam và nữ. Điều nào sau đây mô tả đúng nhất sự khác biệt?

  1. Nam và nữ có cùng phân phối.
  2. Hầu hết nam giới nhanh hơn hầu hết phụ nữ.
  3. Nam và nữ có phân phối lệch phải tương tự với trước, 20 phút chuyển sang trái.
  4. Cả hai phân phối thường được phân phối với sự khác biệt về trung bình khoảng 30 phút.

Dưới đây là thời gian chạy marathon của NYC dành cho nam và nữ, dưới dạng lượng tử, biểu đồ và hình hộp:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

Thời gian nam và nữ - biểu đồ

Thời gian nam và nữ - boxplot


Để kiểm tra trực quan cho cùng một phân phối, biểu đồ của bạn nên sử dụng cùng một miền x và thùng, trong khi trục y sẽ hiển thị tần số tương đối. Kích thước băng Bin sẽ được hưởng lợi từ độ chi tiết cao hơn, ví dụ 25 hoặc 50 phút. Ngoài ra, trên cả boxplots và biểu đồ, hãy vẽ trung vị (đã có trong boxplot), giá trị trung bình và chế độ.
g3o2

Trả lời câu hỏi từ tiêu đề: xem xét các bản phân phối thống nhất trên và . Trung vị của cái sau lớn hơn nhưng được nhận ra ngẫu nhiên từ mỗi cái, xác suất của cái thứ hai lớn hơn giống như nó nhỏ hơn ( ). Vì vậy, nếu bạn xác định "phần lớn là lớn hơn" bằng cách "đưa ra hai mẫu ngẫu nhiên X và Y, mỗi mẫu một, " thì mối quan hệ giữa các trung vị của X và Y không nói nhiều về nó. { 2 } 0,5 P ( X > Y ) > 0,5{0,3}{2}0.5P(X>Y)>0.5
AlexR

Câu trả lời:


7

Tôi nghĩ rằng lý do bạn bị đánh dấu là không chính xác không phải là câu trả lời mà bạn đưa ra cho câu hỏi đa dạng là sai, thay vào đó, tùy chọn 3 "Nam và nữ có phân phối lệch phải tương tự với trước, 20 phút chuyển sang trái" sẽ là một lựa chọn tốt hơn vì nó có nhiều thông tin hơn dựa trên thông tin được cung cấp.


Tôi đồng ý với lời giải thích này. Ngoài ra, "nhanh nhất so với hầu hết" là rất mơ hồ. Mặc dù câu trả lời được đưa ra bởi @glen_b, tôi sẽ mong đợi sự phân tách nhiều hơn trong các ô hộp cho loại ngôn ngữ này. Giống như "tất cả 75% nam giới nhanh hơn tất cả 75% nữ giới", mà tôi nghĩ sẽ chuyển sang tỷ lệ phần trăm thứ 75 của nam giới thấp hơn so với tỷ lệ phần trăm thứ 25 của nữ giới. Nhưng ngôn ngữ thì mơ hồ.
Sal Mangiafico

1
Ngoài ra, điều này đạt được một nguyên tắc làm bài kiểm tra trắc nghiệm: Luôn chọn câu trả lời đúng nhất .
Sal Mangiafico

Điều này thật ý nghĩa; Không phải lựa chọn nào khác là SAU, mà là lựa chọn chính xác ("Nam và nữ có phân phối lệch phải tương tự với trước, 20 phút chuyển sang trái.") là đúng đắn. Tuy nhiên, tôi không hoàn toàn thấy sự thay đổi 20 phút trong biểu đồ; nó trông giống như một sự thay đổi 50 phút với tôi. Vì tôi có hai cơ hội, tôi đã trả lời đúng câu hỏi, FWIW :-).
thì là

@cumin: Tôi không chắc điều đó thực sự đúng. "Hầu hết đàn ông nhanh hơn hầu hết phụ nữ" mơ hồ về ý nghĩa của "hầu hết" - tôi không tin rằng tôi từng thấy một định nghĩa khắt khe, và theo trực giác, nó thường đáng kể hơn 50% (có thể là 70% +?) . Nếu họ nói "đa số" thì có lẽ mọi chuyện sẽ rõ ràng hơn.
dùng541686

9

Đây là ví dụ phản biện nhỏ nhất tôi có thể tìm thấy:

A 1,4,10;  B 0,6,9

  • A ( [1, 4, 10])B ( [0, 6, 9]) có cùng mức trung bình ( 5)

  • B có trung vị ( 6) lớn hơn A ( 4)

  • Có xác suất 5/9 rằng một phần tử A ngẫu nhiên lớn hơn một phần tử B ngẫu nhiên .

Đây là một ví dụ khác với 4 yếu tố:

Một 1,1,3,10;  B 0,0,6,9


7

"Hầu hết đàn ông nhanh hơn hầu hết phụ nữ" có khả năng hơi mơ hồ, nhưng tôi thường giải thích ý định của nó là nếu chúng ta nhìn vào những câu nói ngẫu nhiên, hầu hết thời gian người đàn ông sẽ nhanh hơn - tức là cho ngẫu nhiên (trong đó là 'thời gian dành cho nam thứ ', v.v.).P(Mi<Fj)>12i,jMii

Tất nhiên các cách giải thích khác của cụm từ là có thể (rốt cuộc đó là sự mơ hồ) và một số khả năng khác có thể phù hợp với lý luận của bạn.

[Chúng tôi cũng có vấn đề là chúng tôi đang nói về mẫu hay dân số ... "hầu hết đàn ông [...] hầu hết phụ nữ" dường như là một tuyên bố dân số (về dân số thời gian tiềm năng) nhưng chúng tôi chỉ quan sát được thời gian rằng chúng tôi dường như đang coi là một mẫu, vì vậy chúng tôi phải cẩn thận với mức độ chúng tôi đưa ra yêu cầu.]

Lưu ý rằng không được ngụ ý bởi . Họ có thể đi ngược chiều nhau.P(Mi<Fj)>12M~<F~

[Tôi không nói rằng bạn sai khi nghĩ rằng tỷ lệ các cặp MF ngẫu nhiên mà người đàn ông nhanh hơn phụ nữ là hơn 1/2 - bạn gần như chắc chắn đúng. Tôi chỉ nói rằng bạn không thể nói điều đó bằng cách so sánh trung bình. Bạn cũng không thể nói điều đó bằng cách xem tỷ lệ trong từng mẫu ở trên hoặc dưới trung vị của mẫu khác. Bạn sẽ phải làm một so sánh khác nhau.]

Đó là, trong khi người đàn ông trung bình có thể nhanh hơn phụ nữ trung bình, có thể có một mẫu thời gian (hoặc phân phối thời gian liên tục, cho vấn đề đó) trong đó khả năng một người đàn ông ngẫu nhiên nhanh hơn phụ nữ ngẫu nhiên là ít hơn . Trong các mẫu lớn, hai chỉ dẫn ngược nhau có thể có ý nghĩa.12


Thí dụ:

Tập dữ liệu A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Tập dữ liệu B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Tập dữ liệu C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Dữ liệu ở đây , nhưng được sử dụng cho mục đích khác ở đó - theo hồi ức của tôi, tôi đã tự tạo dữ liệu này)

Lưu ý rằng tỷ lệ của A <B là 2/3, tỷ lệ của A <C là 5/9 và tỷ lệ của B <C là 2/3. Cả A vs B và B vs C đều có ý nghĩa ở mức 5% nhưng chúng ta có thể đạt được bất kỳ mức ý nghĩa nào chỉ bằng cách thêm đủ các bản sao của các mẫu. Chúng ta thậm chí có thể tránh các mối quan hệ, bằng cách sao chép các mẫu nhưng thêm jitter đủ nhỏ (đủ nhỏ hơn khoảng cách nhỏ nhất giữa các điểm)

Các trung vị mẫu đi theo hướng khác: trung vị (A)> trung vị (B)> trung vị (C)

Một lần nữa chúng ta có thể đạt được tầm quan trọng đối với một số so sánh trung vị - với bất kỳ mức ý nghĩa nào - bằng cách lặp lại các mẫu.

Dải của các mẫu A, B và C với các trung vị được đánh dấu hiển thị P (A <B) ngược hướng với trung vị, v.v.

Để liên hệ nó với vấn đề hiện tại, hãy tưởng tượng rằng A là "thời của phụ nữ" và B là "thời của đàn ông". Sau đó thời gian của đàn ông trung bình nhanh hơn, nhưng một người đàn ông được chọn ngẫu nhiên sẽ 2/3 thời gian chậm hơn so với một người phụ nữ được chọn ngẫu nhiên.

Lấy gợi ý từ các mẫu A và C, chúng ta có thể tạo ra một tập hợp dữ liệu lớn hơn (tính bằng R) như sau:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

Trung vị của F sẽ vào khoảng 16,25 trong khi trung vị của M sẽ vào khoảng 11,25 nhưng tỷ lệ các trường hợp trong đó F <M sẽ là 5/9.

[Nếu chúng ta thay thế n / 3 bằng một biến thiên nhị thức bằng các tham số và chúng ta sẽ lấy mẫu từ một quần thể trong đó trung vị của phân phối F là 16,25 trong khi trung vị của phân phối M là 11,25. Trong khi đó trong dân số đó, xác suất F <M sẽ lại là 5/9.]n13

Cũng lưu ý rằng và trong khi (bằng một khoảng cách đáng kể).P(F<med(M))=23P(M>med(F))=23med(M)<med(F)


Tôi có thể thấy cách các phương tiện có thể đi ngược chiều nhau, nhưng tôi sẽ thừa nhận trực giác của mình ở đây khớp với OP. Tôi không thấy làm thế nào các trung vị có thể (ngoài vấn đề lỗi lấy mẫu).
gung - Phục hồi Monica

@gung Tôi bao gồm một ví dụ. Tôi thích đánh lừa trực giác ban đầu của mình theo cách này - bằng cách tìm ra các mẫu phản đối với chúng. Nếu tôi đi qua nhiều hơn (tôi tin rằng tôi có một nơi khác) tôi sẽ cố gắng đề cập đến họ.
Glen_b -Reinstate Monica

Boxplot trong câu hỏi gốc cho thấy khoảng 60-65% (bằng nhãn cầu) của nam giới có thời gian ít hơn thời gian trung bình cho phụ nữ (tức là ít hơn thời gian cho 50% phụ nữ). Đó là phần mà tôi muốn giải thích đi.
thì là

@cumin trong các mẫu A và C của tôi ở trên, 2/3 C nhỏ hơn trung vị cho A (hầu hết C đều nhanh hơn trung vị A), trong khi cho ngẫu nhiên , là khoảng 56% ( hầu hết thời gian một ngẫu nhiên A đánh bại một C ngẫu nhiên). [Tôi không nghĩ rằng kết luận của bạn thực sự không chính xác về dữ liệu của bạn, chỉ là phần thông tin này thôi là không đủ để thiết lập nó.] - Tôi đã thực hiện một chỉnh sửa nhỏ ở cuối bài đăng của mình về thông tin cụ thể đó so sánh. Tôi nghĩ rằng sẽ rất khó để khớp các chi tiết trong biểu đồ và ô vuông của bạn cùng một lúc và có được kiểu đảo ngược mà tôi đã tạoP(Ai<Cj)ij
Glen_b -Reinstate Monica

3
Tôi sẽ giải thích cụm từ "hầu hết đàn ông nhanh hơn hầu hết phụ nữ" vì "ít nhất 50% đàn ông nhanh hơn ít nhất 50% phụ nữ". Nói cách khác: đưa ra một người đàn ông X, thật hợp lý khi hỏi liệu X có nhanh hơn 50% phụ nữ không. Đối với tôi, yêu cầu sau đó nói rằng ít nhất 50% nam giới có tài sản này. Điều này (tôi nghĩ) là ĐÚNG nếu người đàn ông trung bình nhanh hơn phụ nữ trung bình, vì 50% đàn ông sẽ nhanh hơn đàn ông trung bình, người nhanh hơn phụ nữ trung bình, nhanh hơn 50% phụ nữ. (Nhưng lưu ý rằng điều này chỉ bao gồm 25% các cặp nam nữ, mà tôi nghĩ là giải thích cho ví dụ tuyệt vời của bạn.)
mathmandan

3

Các số liệu sau đây được lấy từ bài đăng trên blog này , trong đó minh họa một ứng dụng thực tế quan trọng của những ý tưởng này.

Tiêu chuẩn hóa cung cấp một thiết bị mạnh mẽ để so sánh 2 bản phân phối. 3 số liệu sau đây so sánh chiều cao của bé trai và bé gái 130 tháng tuổi từ Chương trình đo lường trẻ em quốc gia Anh (NCMP). (Đây là độ tuổi phương thức trong bộ dữ liệu này; tôi đã chọn nó đơn giản để có được nhiều dữ liệu nhất và do đó, các lô trơn tru nhất, trong một nhóm tuổi duy nhất.)

Hình 1: Chiều cao của bé trai và bé gái 130 tháng tuổi, từ Chương trình đo lường trẻ em quốc gia của Anh (NCMP)

Hình 1: Chiều cao của bé trai và bé gái 130 tháng tuổi, từ Chương trình đo lường trẻ em quốc gia của Anh (NCMP)

Hình 2: Phần trăm chiều cao của bé trai và bé gái 130 tháng tuổi.  Nguồn: Tiếng Anh NCMP

Hình 2: Phần trăm chiều cao của bé trai và bé gái 130 tháng tuổi. Nguồn: Tiếng Anh NCMP

Hình 3: Phân bố chiều cao của bé gái 130 tháng tuổi so với bé trai cùng tuổi.

Hình 3: Phân bố chiều cao của bé gái 130 tháng tuổi so với bé trai cùng tuổi.

Trong những số liệu cuối cùng, việc so sánh chiều cao đã được chuẩn hóa theo chiều cao của bé trai. Do đó, đọc dọc theo các đường màu xám chấm trong Hình 3, bạn có thể đưa ra các câu lệnh như:

  • Chiều cao trung bình (nghĩa là 50 phần trăm) đối với con trai chỉ bằng khoảng 45 phần trăm đối với con gái. Do đó, 100% - 45% = 55% bé gái cao hơn bé trai trung bình.
  • Chiều cao tứ phân vị cao nhất (phân vị thứ 75) đối với các bé gái đạt mức cao nhất (phân vị thứ 80) đối với các bé trai. Do đó, trong số những đứa trẻ ở độ tuổi 130 mos, một bé gái cao hơn 3 trên 4 bé gái cũng cao hơn 4 trên 5 bé trai.

Một điểm có thể gây nhầm lẫn trong cốt truyện này đáng được đề cập. Mặc dù đường 45 ° của nam sinh 'cao hơn' trên cốt truyện so với đường cong màu đỏ tươi của nữ, tuy nhiên quan sát này tương ứng với thực tế nổi tiếng là ở độ tuổi này (đây là học sinh lớp 6), các cô gái thường cao hơn nam . Lưu ý rằng độ cao này được phản ánh đúng trong thực tế là đường cong màu đỏ tươi được dịch chuyển sang phải so với đường màu xanh.

Cách tiếp cận này khá chung chung . Trong một so sánh như vậy, một trong những nhóm - nhóm mà bạn chuẩn hóa - trở thành dòng 45 °. Các nhóm khác nói chung có thể là bất kỳ đường cong tăng đơn điệu nào được vẽ từ phía dưới bên trái sang bên phải. Với điều kiện là các phân phối cơ bản là liên tục (mật độ thiếu khối lượng điểm), đường cong so sánh sẽ liên tục. Nếu mật độ cơ bản chia sẻ cùng một hỗ trợ , đường cong phải chạy từ đến .( 1 , 1 )(0,0)(1,1)

Câu hỏi ban đầu của bạn bây giờ có thể được đọc lại theo thuật ngữ hình học, như một câu hỏi về việc bạn có thể vẽ đường cong màu đỏ của Hình 3 để đạt được đồng thời (a) mối quan hệ được đặt ra giữa các trung vị và (b) mối quan hệ hơi khó nắm bắt mà @Glen_b làm sáng tỏ (chính xác, tôi tin) trong câu trả lời của mình. Tôi tự hỏi nếu sự không liên tục phân phối (khối lượng điểm trong mật độ) có thể cho phép một trường hợp 'bệnh lý' được cung cấp. Tôi phỏng đoán rằng bất kỳ trường hợp bệnh lý nào như vậy sẽ là 'ngoại lệ chứng minh quy tắc'.


xxcó tài sản này. Trên tài khoản này, câu trả lời cho câu hỏi đố sẽ là .

Mặt khác, nếu mục đích thực tế của 'nhất' là "> 50%", người ta có thể mong đợi cụm từ chính xác hơn "đa số" đã được sử dụng. Nếu ai đó nói với tôi điều gì đó "có thể" sẽ xảy ra, tôi sẽ nghĩ rằng xác suất chủ quan từ 60% trở lên đang được ám chỉ. Tương tự như vậy, "hầu hết" với tôi có nghĩa là một cái gì đó hơi giống 70 708080. Rõ ràng, từ cốt truyện trên, nếu 'hầu hết' được coi là một tiêu chí nghiêm ngặt hơn 52,5%, thì bạn không thể nói "hầu hết các cô gái [có tài sản mà họ] cao hơn hầu hết các chàng trai". Tôi tự hỏi nếu một phần của lý do cho câu hỏi đố là để kích thích kiểm tra các từ vì chúng liên quan đến các khái niệm số. (Nếu bạn nghĩ rằng điều này hơi ngớ ngẩn, hãy xem xét các biểu đồ này, cho thấy cách mọi người có xu hướng diễn giải các từ và cụm từ xác suất khác nhau.) Có lẽ mục đích cũng là nhấn mạnh điểm có rất nhiều biến thể có trong các bản phân phối trong thế giới thực và một thống kê duy nhất (trung bình, có nghĩa là, có gì bạn) sẽ hiếm khi hỗ trợ các tuyên bố rộng, sâu rộng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.