"Hầu hết đàn ông nhanh hơn hầu hết phụ nữ" có khả năng hơi mơ hồ, nhưng tôi thường giải thích ý định của nó là nếu chúng ta nhìn vào những câu nói ngẫu nhiên, hầu hết thời gian người đàn ông sẽ nhanh hơn - tức là cho ngẫu nhiên (trong đó là 'thời gian dành cho nam thứ ', v.v.).P(Mi<Fj)>12i,jMii
Tất nhiên các cách giải thích khác của cụm từ là có thể (rốt cuộc đó là sự mơ hồ) và một số khả năng khác có thể phù hợp với lý luận của bạn.
[Chúng tôi cũng có vấn đề là chúng tôi đang nói về mẫu hay dân số ... "hầu hết đàn ông [...] hầu hết phụ nữ" dường như là một tuyên bố dân số (về dân số thời gian tiềm năng) nhưng chúng tôi chỉ quan sát được thời gian rằng chúng tôi dường như đang coi là một mẫu, vì vậy chúng tôi phải cẩn thận với mức độ chúng tôi đưa ra yêu cầu.]
Lưu ý rằng không được ngụ ý bởi . Họ có thể đi ngược chiều nhau.P(Mi<Fj)>12M˜<F˜
[Tôi không nói rằng bạn sai khi nghĩ rằng tỷ lệ các cặp MF ngẫu nhiên mà người đàn ông nhanh hơn phụ nữ là hơn 1/2 - bạn gần như chắc chắn đúng. Tôi chỉ nói rằng bạn không thể nói điều đó bằng cách so sánh trung bình. Bạn cũng không thể nói điều đó bằng cách xem tỷ lệ trong từng mẫu ở trên hoặc dưới trung vị của mẫu khác. Bạn sẽ phải làm một so sánh khác nhau.]
Đó là, trong khi người đàn ông trung bình có thể nhanh hơn phụ nữ trung bình, có thể có một mẫu thời gian (hoặc phân phối thời gian liên tục, cho vấn đề đó) trong đó khả năng một người đàn ông ngẫu nhiên nhanh hơn phụ nữ ngẫu nhiên là ít hơn . Trong các mẫu lớn, hai chỉ dẫn ngược nhau có thể có ý nghĩa.12
Thí dụ:
Tập dữ liệu A:
1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
1.42 2.56 16.73 17.01 18.86 19.98
Tập dữ liệu B:
3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
3.44 4.13 6.00 20.85 21.82 22.05
Tập dữ liệu C:
6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
6.57 7.58 8.81 9.08 23.43 24.45
(Dữ liệu ở đây , nhưng được sử dụng cho mục đích khác ở đó - theo hồi ức của tôi, tôi đã tự tạo dữ liệu này)
Lưu ý rằng tỷ lệ của A <B là 2/3, tỷ lệ của A <C là 5/9 và tỷ lệ của B <C là 2/3. Cả A vs B và B vs C đều có ý nghĩa ở mức 5% nhưng chúng ta có thể đạt được bất kỳ mức ý nghĩa nào chỉ bằng cách thêm đủ các bản sao của các mẫu. Chúng ta thậm chí có thể tránh các mối quan hệ, bằng cách sao chép các mẫu nhưng thêm jitter đủ nhỏ (đủ nhỏ hơn khoảng cách nhỏ nhất giữa các điểm)
Các trung vị mẫu đi theo hướng khác: trung vị (A)> trung vị (B)> trung vị (C)
Một lần nữa chúng ta có thể đạt được tầm quan trọng đối với một số so sánh trung vị - với bất kỳ mức ý nghĩa nào - bằng cách lặp lại các mẫu.
Để liên hệ nó với vấn đề hiện tại, hãy tưởng tượng rằng A là "thời của phụ nữ" và B là "thời của đàn ông". Sau đó thời gian của đàn ông trung bình nhanh hơn, nhưng một người đàn ông được chọn ngẫu nhiên sẽ 2/3 thời gian chậm hơn so với một người phụ nữ được chọn ngẫu nhiên.
Lấy gợi ý từ các mẫu A và C, chúng ta có thể tạo ra một tập hợp dữ liệu lớn hơn (tính bằng R) như sau:
n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))
Trung vị của F sẽ vào khoảng 16,25 trong khi trung vị của M sẽ vào khoảng 11,25 nhưng tỷ lệ các trường hợp trong đó F <M sẽ là 5/9.
[Nếu chúng ta thay thế n / 3 bằng một biến thiên nhị thức bằng các tham số và
chúng ta sẽ lấy mẫu từ một quần thể trong đó trung vị của phân phối F là 16,25 trong khi trung vị của phân phối M là 11,25. Trong khi đó trong dân số đó, xác suất F <M sẽ lại là 5/9.]n13
Cũng lưu ý rằng và trong khi (bằng một khoảng cách đáng kể).P(F<med(M))=23P(M>med(F))=23med(M)<med(F)