Xác suất của n người trong danh sách m người trong một lựa chọn ngẫu nhiên của x người từ danh sách y người là gì?


10

Nếu tôi chọn 232 người trong nhóm 363 người mà không thay thế thì xác suất 2 người trong danh sách 12 người cụ thể nằm trong lựa chọn đó là bao nhiêu?

Đây là một trận hòa ngẫu nhiên cho một cuộc đua siêu hạng, nơi có 363 người tham gia cho 232 điểm. Có một cuộc tranh luận về việc liệu lựa chọn có thành kiến ​​với một nhóm 12 người nhất định hay không.

Nỗ lực ban đầu của tôi khi tính toán điều này là có 232 lựa chọn 363 lựa chọn có thể. Số lượng kết hợp của bất kỳ một người nào trong danh sách mười hai là 1 chọn 12 + 2 chọn 12 + ... + 11 chọn 12 + 12 chọn 12. Do đó 1 chọn 12 + 2 chọn 12 .... / 232 chọn 363 Cuối cùng là một con số rất thấp và rõ ràng là quá thấp.

Làm thế nào để tôi tính toán này?


1
Hai điểm kỹ thuật. Đầu tiên, bây giờ bạn đang xử lý một khả năng chứ không phải là một xác suất như kết quả đã biết. Thứ hai, nó không quan trọng khả năng lý thuyết là gì, cho rằng bạn có kết quả. Tôi nghĩ sẽ tốt hơn nếu tiếp cận phương pháp được sử dụng để lựa chọn: làm thế nào các lựa chọn được chọn? Bạn cần chứng minh tính đúng đắn của phương pháp chứ không phải tính chính xác của kết quả.
Michelle

1
Người ta sẽ xem điều này như một khả năng, Michelle, với mục đích ước tính xác suất lựa chọn. Điều đó dường như không phải là trường hợp ở đây.
whuber

Bạn cần cẩn thận trong việc sử dụng phép tính đơn giản của RV siêu bội, vì 12 người đang phàn nàn không được chọn ngẫu nhiên. Họ đang phàn nàn vì họ không được chọn.
Guy

Câu trả lời:


10

Tôi diễn giải câu hỏi như thế này: giả sử việc lấy mẫu được thực hiện một cách có mục đích như thể vé giấy trắng được đặt trong một cái lọ, mỗi cái được dán nhãn tên của một người và được lấy ra một cách ngẫu nhiên sau khi khuấy kỹ nội dung của bình. Trước đó, vé có màu đỏ. Cơ hội mà chính xác hai trong số các vé được chọn là màu đỏ là gì? Cơ hội mà nhiều nhất là hai trong số các vé màu đỏ là gì?36323212

Một công thức chính xác có thể thu được, nhưng chúng ta không cần phải làm nhiều công việc lý thuyết đó. Thay vào đó, chúng tôi chỉ theo dõi các cơ hội khi vé được lấy từ bình. Tại thời điểm trong số chúng đã được rút, hãy để cơ hội rằng chính xác đã nhìn thấy vé đỏ được viết . Để bắt đầu, hãy lưu ý rằng nếu (bạn không thể có bất kỳ vé đỏ nào trước khi bắt đầu) và (chắc chắn bạn không có vé đỏ ngay từ đầu). Bây giờ, trong lần rút thăm gần đây nhất, vé có màu đỏ hoặc không. Trong trường hợp đầu tiên, trước đây chúng tôi đã có cơ hội nhìn thấy chính xácmip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1vé đỏ. Sau đó, chúng tôi đã tình cờ kéo một cái màu đỏ từ vé còn lại , làm cho nó chính xác là vé đỏ cho đến nay. Bởi vì chúng tôi cho rằng tất cả các vé đều có cơ hội như nhau ở mọi giai đoạn, do đó cơ hội vẽ màu đỏ của chúng tôi theo cách này là do đó . Trong trường hợp khác, chúng tôi đã có cơ hội để có được chính xác vé đỏ trong lần rút thăm trước đó và cơ hội không thêm một vé đỏ nào vào mẫu trong lần rút tiếp theo là363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1). Khi sử dụng các tiên đề cơ bản của xác suất (để dí dỏm, cơ hội của hai trường hợp loại trừ lẫn nhau sẽ cộng và cơ hội có điều kiện nhân lên),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

Chúng tôi lặp lại phép tính này một cách đệ quy, đưa ra một mảng tam giác các giá trị của cho và . Sau khi tính toán một chút, chúng tôi thu được và , trả lời cả hai phiên bản của câu hỏi. Đây là những con số nhỏ: bất kể bạn nhìn nó như thế nào, chúng là những sự kiện khá hiếm (hiếm hơn một phần nghìn).p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Để kiểm tra lại, tôi đã thực hiện bài tập này với máy tính 1.000.000 lần. Trong 932 = 0,000932 của các thí nghiệm này, đã quan sát thấy 2 hoặc ít vé đỏ hơn. Điều này cực kỳ gần với kết quả tính toán, bởi vì dao động lấy mẫu trong giá trị dự kiến của 934.3 là khoảng 30 (tăng hoặc giảm). Đây là cách mô phỏng được thực hiện trong R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Lần này, vì các thí nghiệm là ngẫu nhiên, kết quả đã thay đổi một chút: hai hoặc ít hơn vé đỏ được quan sát thấy trong 948 trong số hàng triệu thử nghiệm. Điều đó vẫn phù hợp với kết quả lý thuyết.)

Kết luận là rất khó có khả năng hai hoặc ít hơn trong số 232 vé sẽ có màu đỏ. Nếu bạn thực sự có một mẫu gồm 232 trong số 363 người, thì kết quả này là một dấu hiệu mạnh mẽ cho thấy mô hình vé không phải là một mô tả chính xác về cách lấy mẫu. Cách giải thích khác bao gồm (a) vé màu đỏ đã được thực hiện khó khăn hơn để lấy từ jar (một "thiên vị" đối với họ) cũng như (b) các vé đã được màu sau khi mẫu được quan sát ( post-hoc dữ liệu snooping, mà không không chỉ ra bất kỳ sự thiên vị nào).

Một ví dụ về lời giải thích (b) trong hành động sẽ là một bồi thẩm đoàn cho một phiên tòa giết người khét tiếng. Giả sử nó bao gồm 363 người. Ra khỏi hồ bơi đó, tòa án đã phỏng vấn 232 người trong số họ. Một phóng viên tờ báo đầy tham vọng đánh giá tỉ mỉ sơ yếu lý lịch của mọi người trong hồ bơi và thông báo rằng 12 trong số 363 là người hâm mộ cá vàng, nhưng chỉ có hai người trong số họ đã được phỏng vấn. Là tòa án thiên vị chống lại người hâm mộ cá vàng? Chắc là không.


NB Trong mô phỏng, không quan trọng rằng đó là 12 "vé" đầu tiên được đánh dấu, bởi vì tất cả việc lấy mẫu được thực hiện ngẫu nhiên mà không cần thay thế (thông qua sample). Trong thực tế, tại mỗi lần lặp lại sampletrộn kỹ các vé mỗi lần nó được gọi trước khi nó rút 232 trong số chúng.
whuber

2
Trời ơi - đó thực sự không phải là kết quả mà tôi mong đợi. Cảm ơn bạn đã làm việc kỹ lưỡng và giải thích tốt. (Thật kỳ lạ, tôi thực sự đã thực hiện một số khóa đào tạo về chỉ số tại Đại học Auckland, nơi R được phát triển lần đầu tiên)
Sund

10

@whuber đã đưa ra một lời giải thích thấu đáo, tôi chỉ muốn chỉ ra rằng có một phân phối thống kê tiêu chuẩn tương ứng với kịch bản này: phân phối siêu bội . Vì vậy, bạn có thể có được bất kỳ xác suất nào như vậy trực tiếp trong, giả sử, R:

Xác suất của đúng 2 trong số 12 lựa chọn:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Xác suất từ ​​2 trở xuống trong số 12 người được chọn:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Cảm ơn. Tôi nên đã đề cập đến kết nối này. Phân bố siêu bội xuất hiện một cách cổ điển trong các thí nghiệm lấy mẫu lại. 12 người cụ thể ("vé đỏ" của tôi) giống như những con cá đã bị bắt, đánh dấu và ném trở lại bể bơi; mẫu của 232 giống như bộ cá được đánh bắt sau đó. Phân bố siêu bội mô tả tần số của cá thu hồi.
whuber

0

Tỷ lệ cược cao hơn nhiều so với tính toán với phân bố siêu bội đơn giản, vì nhóm không được chọn ngẫu nhiên ( "12 con cá được sơn màu đỏ trước khi rút" ).

Từ mô tả của câu hỏi, chúng tôi đang thử nghiệm cho một gian lận trong rút thăm. Một nhóm cụ thể gồm 12 người phàn nàn rằng chỉ có 2 người trong số họ được chọn, trong khi con số dự kiến ​​là 232/363 ~ 2/3 = 8.

Điều chúng tôi thực sự cần tính toán là tỷ lệ cược là " Không có nhóm cỡ 12 sẽ chỉ có 2 thành viên được chọn". Tỷ lệ cược rằng ít nhất một nhóm sẽ có 2 hoặc ít hơn (do đó sẽ khiếu nại chống lại sự công bằng của trận hòa) cao hơn nhiều.

Khi tôi chạy mô phỏng này và kiểm tra xem có bao nhiêu thử nghiệm trong số 30 (= 360/12) nhóm có 2 hoặc ít hơn các lựa chọn, tôi nhận được khoảng 2,3% số lần. 1:42 là thấp nhưng không phải là không thể.

Bạn vẫn nên kiểm tra quy trình bốc thăm vì nó có thể bị sai lệch so với một nhóm người cụ thể. Họ có thể đã đến với nhau và nhận được một phạm vi bốc thăm với xác suất ít hơn (ví dụ như số đầu tiên hoặc số cuối cùng) hoặc bất kỳ biến phụ thuộc nào vào quy trình rút thăm. Nhưng nếu bạn không tìm thấy bất kỳ sai sót nào trong quy trình, bạn có thể quay lại tỷ lệ cược 1:42 rằng đó đơn giản là điều xui xẻo cho nhóm.


Một điểm tốt, NHƯNG (a) chắc chắn không phải mọi nhóm 12 người có thể có đủ sự tương đồng với vật chất và (b) không phải tất cả các nhóm có đủ sự tương đồng với vật chất đều có chính xác 12 thành viên.
zbicyclist

@zbicyclist, tôi không cho rằng phép tính là chính xác. Tôi muốn đưa ra một nghi ngờ hợp lý (vì chúng ta đang ở trong địa hạt của pháp luật với phát hiện gian lận), rằng việc rút tiền không có tội.
Guy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.