Ước tính xác suất thành công, được đưa ra một dân số tham chiếu


11

Giả sử bạn có tình huống sau:

Bạn đã quan sát theo thời gian 1000 người chơi bowling, mỗi người chơi một số lượng trò chơi tương đối nhỏ (từ 1 đến 20). Bạn lưu ý tỷ lệ phần trăm cho mỗi người chơi trong số những trò chơi mà mỗi người chơi đã chơi.

Một người chơi bowling mới đến và chơi 10 trận và nhận 3 cú đánh.

Phân phối cho số lần đình công cho bất kỳ người chơi nào được coi là nhị thức.

Tôi muốn ước tính xác suất thành công "thực sự" cho người chơi đó.

Xin lưu ý những điều sau:

  1. Đây không phải là một tình huống thực tế hoặc một vấn đề trường học, chỉ là một vấn đề tự suy nghĩ.
  2. Tôi là một sinh viên với giáo dục chỉ số ít hơn một khóa học thống kê 101. Tôi biết một chút về suy luận như ước tính khả năng tối đa ... Vì vậy, vui lòng cho tôi biết các khu vực trong số liệu thống kê mà tôi nên đọc về.
  3. Vấn đề của tôi có thể thiếu thông tin, hoặc nếu nó có ích cho việc phân phối xác suất thành công là xấp xỉ bình thường, xin vui lòng cho tôi biết như vậy.

Cảm ơn rât nhiều


Bạn cho rằng mối quan hệ giữa xác suất của người chơi này và xác suất của mỗi 1000 người chơi khác là gì? Nói cách khác, tại sao chúng ta lại xem xét 1000 người khác trong việc ước tính thăm dò của người chơi này.?
rolando2

1
Tôi cho rằng phần trăm tấn công thực sự của người chơi về cơ bản là sự hiện thực hóa cùng tỷ lệ phần trăm tấn công giống như 1000 người chơi khác. Nói cách khác, không có gì đặc biệt về người chơi mới đó, anh ta chỉ là một người chơi ngẫu nhiên khác. Hy vọng rằng có ý nghĩa.
Uwat

Câu trả lời:


10

Đây là một ví dụ tuyệt vời để minh họa sự khác biệt giữa cách tiếp cận thường xuyên và Bayesian để suy luận.

Câu trả lời thường xuyên đầu tiên, đơn giản của tôi: Nếu bạn đã giả định phân phối các cuộc đình công là nhị thức, bạn không cần biết gì về 1000 người chơi khác (ngoài có lẽ bạn có thể sử dụng chúng để kiểm tra giả định nhị thức của mình).

Khi bạn đã có giả định nhị thức rõ ràng, ước tính của bạn rất đơn giản: 3/10. Phương sai của ước tính này là p (1-p) / n = 0,021 thông thường.

Về cơ bản, 1000 người chơi khác không liên quan trừ khi bạn nghĩ rằng có điều gì đó thú vị và không nhị phân về phân phối tấn công (ví dụ: mọi người trở nên tốt hơn khi họ chơi nhiều trò chơi hơn).

Một cách nhìn về Bayes được xem xét nhiều hơn: Ngoài ra, nếu bạn quan tâm đến việc áp dụng kiến ​​thức trước đây từ những người chơi khác và bạn nghĩ rằng người chơi mới về cơ bản là một mẫu mới từ cùng một dân số, bạn nên nghĩ về nó trong Bayesian điều khoản .

Ước tính phân phối trước của người chơi. Để làm điều này, bạn cần xem xét 1000 điểm dữ liệu của mình - 1000 người chơi đã được theo dõi, cho mỗi người trong số bạn có ước tính về xác suất đình công của họ. Mỗi trong số 1000 điểm này chỉ có thể nhận một trong 21 giá trị (từ 0 đến hai mươi lần trong số hai mươi) và bạn sẽ thấy phân phối trên toàn bộ trường. Nếu bạn chuyển đổi các điểm số này thành tỷ lệ (tức là giữa 0 và 1) thì phân phối này có thể được xấp xỉ một cách hợp lý bằng cách phân phối xác suất của một biến ngẫu nhiên với phân phối Beta. Phân phối beta được đặc trưng hoàn toàn bởi chỉ hai tham số - giả sử a và b - nhưng vì các tham số này không thực sự liên quan đến phân phối mà bạn đã hỏi chúng tôi (xác suất đình công của người chơi cụ thể) nhưng phân phối cấp cao hơn chúng tôi gọi chúng là siêu âm. Bạn có thể phát triển các ước tính của các siêu đường kính này từ 1000 điểm dữ liệu của bạn theo một trong những cách không thực sự phù hợp với điểm chính của câu hỏi của bạn.

Trước khi bạn có bất kỳ thông tin nào về người chơi của mình, bạn hãy đoán rõ nhất về tỷ lệ ghi bàn của anh ấy / cô ấy (hãy gọi nó là p) sẽ là giá trị khả dĩ nhất của p từ bản phân phối Beta mà chúng tôi vừa trang bị.

Tuy nhiên, chúng tôi có dữ liệu về người chơi của chúng tôi, không chỉ là dân số nói chung! Trong Chúa, chúng tôi tin tưởng, tất cả những người khác phải mang theo dữ liệu (tôi xin ghi lại trích dẫn này nếu tôi có thể nhớ nơi tôi tìm thấy nó, xin lỗi). Mỗi lần chúng tôi quan sát người chơi của mình chơi một trò chơi và có đình công hay không, chúng tôi có một thông tin mới để xác định chính xác tỷ lệ của mình.

Một trong những điều thú vị về phân phối beta là phân phối xác suất cho tỷ lệ là khi chúng tôi thu thập thông tin mới từ dữ liệu và tạo ước tính mới, cải thiện tỷ lệ, lý thuyết xác suất có thể cho thấy ước tính mới, được cải thiện cũng là beta phân phối - chỉ là một phiên bản tập trung hơn. Điều này là do phân phối beta là những gì được gọi là liên hợp trước khi cố gắng ước tính về mô hình nhị thức.

Đó là, nếu chúng ta quan sát z trong số n sự kiện thành công (trò chơi có đình công trong trường hợp này); và phân phối trước là beta (a, b); phân phối sau (là ước tính phân phối xác suất của p với cả 1000 điểm dữ liệu ban đầu và là quan sát mới của mười trò chơi) là beta (a + z, b + nz) hoặc (trong trường hợp của chúng tôi) beta (a + 3, b + 7). Như bạn có thể thấy, càng nhiều dữ liệu bạn nhận được a và b càng ít quan trọng. Toán học về điều này là hợp lý đơn giản và trong nhiều văn bản nhưng không thú vị (dù sao với tôi, dù sao).

Nếu bạn có R, bạn có thể xem một ví dụ bằng cách chạy mã bên dưới (và nếu bạn không có R, bạn nên lấy nó - nó miễn phí và thật tuyệt vời khi giúp bạn suy nghĩ về loại vấn đề này). Điều này giả định rằng việc phân phối người chơi trước có thể được mô hình hóa bằng beta (2,5) - điều này chỉ do tôi tạo ra. Trong thực tế, có nhiều cách bạn có thể ước tính số liệu cho a và b tốt hơn là chỉ chiếm 2 và 5 vì tôi nghĩ đường cong có vẻ ổn.

Như bạn sẽ thấy nếu bạn chạy ví dụ cách điệu này, ước tính điểm về xác suất ghi điểm của người chơi, được phân phối beta (2,5) trước đó, là 0,29 thay vì 0,30. Ngoài ra, chúng ta có thể tạo khoảng tin cậy, trực quan và dễ giải thích hơn so với khoảng tin cậy (xem nhiều câu hỏi và thảo luận trên internet về sự khác biệt giữa hai loại, kể cả trên CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Sau đó quan sát người chơi mới của bạn; và tính toán phân phối hậu thế mới cho người chơi mới. Thực tế điều này nói rằng "đưa ra những gì chúng ta vừa quan sát, chúng ta nghĩ người này có khả năng ở đâu?"


2
Tôi không nghĩ rằng điều này là chính xác. Giả sử rằng đại đa số (99%) người trong số 1000 người có tỷ lệ đình công từ 5% đến 15% và một số ít có tỷ lệ đình công cao hơn 25%. Sau đó, tôi sẽ lập luận rằng nhiều khả năng người chơi mới mà chúng tôi quan sát thấy có tỷ lệ tấn công thực sự thấp hơn 30%, nhưng chỉ đơn giản là "đã gặp may".
Uwat

ok, điểm tốt - Tôi đã thêm một chỉnh sửa để tính đến tình huống này. Về cơ bản, bạn có một tuyên bố tốt về một vấn đề suy luận Bayes.
Peter Ellis

@Peter - tất cả đều tranh luận độc đáo.
rolando2

Cảm ơn câu trả lời của bạn. Tuy nhiên, tôi hoàn toàn không hiểu ý của bạn là gì: "bạn cần một sự phân phối thực tế của tỷ lệ đình công của các cá nhân có thể sẽ là Beta của một số loại" Bạn có thể vui lòng làm rõ một chút không? Cảm ơn
Uwat

Cảm ơn, câu hỏi thực sự hay, tôi đã mở rộng câu trả lời của mình rất nhiều.
Peter Ellis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.