Tôi diễn giải câu hỏi như thế này: giả sử việc lấy mẫu được thực hiện một cách có mục đích như thể vé giấy trắng được đặt trong một cái lọ, mỗi cái được dán nhãn tên của một người và được lấy ra một cách ngẫu nhiên sau khi khuấy kỹ nội dung của bình. Trước đó, vé có màu đỏ. Cơ hội mà chính xác hai trong số các vé được chọn là màu đỏ là gì? Cơ hội mà nhiều nhất là hai trong số các vé màu đỏ là gì?36323212
Một công thức chính xác có thể thu được, nhưng chúng ta không cần phải làm nhiều công việc lý thuyết đó. Thay vào đó, chúng tôi chỉ theo dõi các cơ hội khi vé được lấy từ bình. Tại thời điểm trong số chúng đã được rút, hãy để cơ hội rằng chính xác đã nhìn thấy vé đỏ được viết . Để bắt đầu, hãy lưu ý rằng nếu (bạn không thể có bất kỳ vé đỏ nào trước khi bắt đầu) và (chắc chắn bạn không có vé đỏ ngay từ đầu). Bây giờ, trong lần rút thăm gần đây nhất, vé có màu đỏ hoặc không. Trong trường hợp đầu tiên, trước đây chúng tôi đã có cơ hội nhìn thấy chính xácmip(i,m)p(i,0)=0i>0p(0,0)=1p(i−1,m−1)i−1vé đỏ. Sau đó, chúng tôi đã tình cờ kéo một cái màu đỏ từ vé còn lại , làm cho nó chính xác là vé đỏ cho đến nay. Bởi vì chúng tôi cho rằng tất cả các vé đều có cơ hội như nhau ở mọi giai đoạn, do đó cơ hội vẽ màu đỏ của chúng tôi theo cách này là do đó . Trong trường hợp khác, chúng tôi đã có cơ hội để có được chính xác vé đỏ trong lần rút thăm trước đó và cơ hội không thêm một vé đỏ nào vào mẫu trong lần rút tiếp theo là363−m+1i(12−i+1)/(363−m+1)p(i,m−1)im−1(363−m+1−12+i)/(363−m+1). Khi sử dụng các tiên đề cơ bản của xác suất (để dí dỏm, cơ hội của hai trường hợp loại trừ lẫn nhau sẽ cộng và cơ hội có điều kiện nhân lên),
p(i,m)=p(i−1,m−1)(12−i+1)+p(i,m−1)(363−m+1−12+i)363−m+1.
Chúng tôi lặp lại phép tính này một cách đệ quy, đưa ra một mảng tam giác các giá trị của cho và . Sau khi tính toán một chút, chúng tôi thu được và , trả lời cả hai phiên bản của câu hỏi. Đây là những con số nhỏ: bất kể bạn nhìn nó như thế nào, chúng là những sự kiện khá hiếm (hiếm hơn một phần nghìn).p(i,m)0≤i≤120≤m≤232p(2,232)≈0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
Để kiểm tra lại, tôi đã thực hiện bài tập này với máy tính 1.000.000 lần. Trong 932 = 0,000932 của các thí nghiệm này, đã quan sát thấy 2 hoặc ít vé đỏ hơn. Điều này cực kỳ gần với kết quả tính toán, bởi vì dao động lấy mẫu trong giá trị dự kiến của 934.3 là khoảng 30 (tăng hoặc giảm). Đây là cách mô phỏng được thực hiện trong R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Lần này, vì các thí nghiệm là ngẫu nhiên, kết quả đã thay đổi một chút: hai hoặc ít hơn vé đỏ được quan sát thấy trong 948 trong số hàng triệu thử nghiệm. Điều đó vẫn phù hợp với kết quả lý thuyết.)
Kết luận là rất khó có khả năng hai hoặc ít hơn trong số 232 vé sẽ có màu đỏ. Nếu bạn thực sự có một mẫu gồm 232 trong số 363 người, thì kết quả này là một dấu hiệu mạnh mẽ cho thấy mô hình vé không phải là một mô tả chính xác về cách lấy mẫu. Cách giải thích khác bao gồm (a) vé màu đỏ đã được thực hiện khó khăn hơn để lấy từ jar (một "thiên vị" đối với họ) cũng như (b) các vé đã được màu sau khi mẫu được quan sát ( post-hoc dữ liệu snooping, mà không không chỉ ra bất kỳ sự thiên vị nào).
Một ví dụ về lời giải thích (b) trong hành động sẽ là một bồi thẩm đoàn cho một phiên tòa giết người khét tiếng. Giả sử nó bao gồm 363 người. Ra khỏi hồ bơi đó, tòa án đã phỏng vấn 232 người trong số họ. Một phóng viên tờ báo đầy tham vọng đánh giá tỉ mỉ sơ yếu lý lịch của mọi người trong hồ bơi và thông báo rằng 12 trong số 363 là người hâm mộ cá vàng, nhưng chỉ có hai người trong số họ đã được phỏng vấn. Là tòa án thiên vị chống lại người hâm mộ cá vàng? Chắc là không.