Câu trả lời ngắn gọn:
Về cơ bản nó hơn thuyết phục để có 600 ra 1000 hơn sáu trong số 10 bởi vì, cho sở thích bằng nó xa nhiều khả năng cho 6 trong số 10 xảy ra một cách tình cờ ngẫu nhiên.
Chúng ta hãy đưa ra một giả định - rằng tỷ lệ người ưa thích cam và táo thực sự bằng nhau (vì vậy, mỗi người 50%). Gọi đây là một giả thuyết không. Với các xác suất bằng nhau này, khả năng của hai kết quả là:
- Cho một mẫu gồm 10 người, có 38% cơ hội lấy ngẫu nhiên một mẫu từ 6 người trở lên thích cam (điều này không phải là không thể xảy ra).
- Với một mẫu gồm 1000 người, có ít hơn 1 trong một tỷ cơ hội có từ 600 người trở lên trong số 1000 người thích cam.
(Để đơn giản, tôi giả sử một dân số vô hạn để từ đó rút ra số lượng mẫu không giới hạn).
Một dẫn xuất đơn giản
Một cách để rút ra kết quả này là chỉ cần liệt kê ra những cách tiềm năng mà mọi người có thể kết hợp trong các mẫu của chúng tôi:
Đối với mười người, thật dễ dàng:
Xem xét vẽ mẫu của 10 người một cách ngẫu nhiên từ một nhóm người vô hạn có sở thích tương đương với táo hoặc cam. Với các ưu tiên như nhau, thật dễ dàng để liệt kê tất cả các kết hợp tiềm năng của 10 người:
Đây là danh sách đầy đủ.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r là số lượng kết quả (những người thích cam), C là số cách có thể có của nhiều người thích cam và p là xác suất rời rạc của nhiều người thích cam trong mẫu của chúng tôi.
(p chỉ là C chia cho tổng số kết hợp. Lưu ý rằng có tổng số 1024 cách sắp xếp hai sở thích này (nghĩa là 2 cho sức mạnh của 10).
- Chẳng hạn, chỉ có một cách (một mẫu) cho 10 người (r = 10) cho tất cả các loại cam thích. Điều này cũng đúng với tất cả những người thích táo (r = 0).
- Có 10 kết hợp khác nhau dẫn đến chín trong số họ thích cam. (Một người khác nhau thích táo trong mỗi mẫu).
- Có 45 mẫu (kết hợp) trong đó 2 người thích táo, v.v.
(Nói chung, chúng tôi nói về n C r kết hợp kết quả r từ một mẫu của n người. Có những máy tính trực tuyến bạn có thể sử dụng để xác minh những con số này.)
Danh sách này cho phép chúng tôi cung cấp cho chúng tôi các xác suất ở trên bằng cách sử dụng chỉ phân chia. Có 21% cơ hội nhận được 6 người trong mẫu thích cam (210 trên 1024 kết hợp). Cơ hội nhận được sáu người trở lên trong mẫu của chúng tôi là 38% (tổng của tất cả các mẫu có sáu người trở lên, hoặc 386 trong số 1024 kết hợp).
Về mặt đồ họa, các xác suất trông như thế này:
Với số lượng lớn hơn, số lượng kết hợp tiềm năng tăng lên nhanh chóng.
Đối với một mẫu chỉ có 20 người, có 1.048.576 mẫu có thể, tất cả đều có khả năng như nhau. (Lưu ý: Tôi chỉ hiển thị mỗi kết hợp thứ hai bên dưới).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Vẫn chỉ có một mẫu trong đó tất cả 20 người thích cam. Các kết hợp có tính năng kết quả hỗn hợp có nhiều khả năng, đơn giản vì có nhiều cách khác nhau mà những người trong các mẫu có thể được kết hợp.
Các mẫu bị sai lệch rất khó xảy ra, chỉ vì có ít sự kết hợp của những người có thể dẫn đến các mẫu đó:
Chỉ với 20 người trong mỗi mẫu, xác suất tích lũy có 60% trở lên (12 người trở lên) trong mẫu của chúng tôi thích cam giảm xuống chỉ còn 25%.
Phân phối xác suất có thể được nhìn thấy trở nên mỏng hơn và cao hơn:
Với 1000 người, con số rất lớn
Chúng ta có thể mở rộng các ví dụ trên thành các mẫu lớn hơn (nhưng số lượng tăng quá nhanh để có thể liệt kê tất cả các kết hợp), thay vào đó tôi đã tính các xác suất trong R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Xác suất tích lũy của việc có từ 600 người trở lên trong số 1000 người thích cam chỉ là 1.364232e-10.
Phân phối xác suất bây giờ tập trung nhiều hơn quanh trung tâm:
[
(Ví dụ để tính xác suất của chính xác 600 trên 1000 người thích sử dụng cam trong R dbinom(600, 1000, prob=0.5)
, tương đương với 4.633908e-11 và xác suất từ 600 người trở lên là 1-pbinom(599, 1000, prob=0.5)
bằng 1.364232e-10 (ít hơn 1 trên một tỷ).