Giúp tôi hiểu các bản phân phối trước và sau của Bayes


125

Trong một nhóm sinh viên, có 2 trong số 18 người thuận tay trái. Tìm sự phân bố sau của các sinh viên thuận tay trái trong dân số giả định không chính xác trước. Tóm tắt kết quả. Theo tài liệu, 5-20% số người thuận tay trái. Đưa thông tin này vào tài khoản của bạn trước và tính toán sau.

Tôi biết phân phối beta nên được sử dụng ở đây. Thứ nhất, với αβ giá trị như 1? Phương trình tôi tìm thấy trong tài liệu cho hậu thế là

π(r|Y)αr(Y+-1)×(1-r)(VIẾT SAI RỒI-Y+-1)

Y= =2 ,VIẾT SAI RỒI= =18

Tại sao r trong phương trình? ( r biểu thị tỷ lệ người thuận tay trái). Không rõ, vậy làm thế nào nó có thể trong phương trình này? Đối với tôi có vẻ nực cười khi tính r cho Y và sử dụng r đó trong phương trình cho r . Vâng, với các mẫu r= =2/18 kết quả là 0,0019 . Các đụ tôi nên suy ra từ đó?

Phương trình cho giá trị kỳ vọng của R được biết YVIẾT SAI RỒI hoạt động tốt hơn và cho tôi 0,15 âm thanh đúng. Phương trình là với giá trị giao cho và . Tôi sẽ cung cấp cho những gì giá trị và để đưa vào tài khoản thông tin trước?E(r|X,VIẾT SAI RỒI,α,β)= =(α+X)/(α+β+VIẾT SAI RỒI)1αβαβ

Một số lời khuyên sẽ được nhiều đánh giá cao. Một bài giảng chung về phân phối trước và sau cũng không ảnh hưởng gì (tôi mơ hồ hiểu chúng là gì nhưng chỉ mơ hồ) Cũng nhớ rằng tôi không phải là nhà thống kê rất tiến bộ (thực ra tôi là một nhà khoa học chính trị bởi thương mại chính của tôi) toán học tiên tiến có thể sẽ bay qua đầu tôi.



7
Cụm từ " Tìm phân phối sau của sinh viên thuận tay trái " không có nghĩa. Các biến ngẫu nhiên có phân phối và "sinh viên thuận tay trái" không phải là rv Tôi cho rằng bạn có ý định " Tìm phân phối sau của tỷ lệ sinh viên thuận tay trái ". Điều quan trọng không phải là che đậy những chi tiết như vậy, mà là phải rõ ràng về những gì bạn đang thực sự nói về.
Glen_b

2
Trên thực tế, đọc câu hỏi của bạn có vẻ như với tôi rằng vấn đề của bạn không quá nhiều chỉ số Bayes chỉ đơn giản là hiểu phân phối xác suất; nó luôn luôn như vậy mà đối số của một hàm phân phối (hoặc một hàm xác suất là bạn có ở đó) là một chức năng của một người vô danh (các biến ngẫu nhiên). Đó hoàn toàn là quan điểm của họ.
Glen_b

Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
gung

Câu trả lời:


234

Trước tiên hãy để tôi giải thích những gì một liên hợptrước . Sau đó tôi sẽ giải thích các phân tích Bayes bằng ví dụ cụ thể của bạn. Thống kê Bayes bao gồm các bước sau:

  1. Xác định phân phối trước kết hợp niềm tin chủ quan của bạn về một tham số (trong ví dụ của bạn, tham số quan tâm là tỷ lệ của người thuận tay trái). Ưu tiên có thể là "không chính xác" hoặc "thông tin" (nhưng không có ưu tiên nào không có thông tin, xem thảo luận tại đây ).
  2. Thu thập dữ liệu.
  3. Cập nhật phân phối trước của bạn với dữ liệu bằng định lý Bayes để có được phân phối sau. Phân phối sau là phân phối xác suất đại diện cho niềm tin cập nhật của bạn về tham số sau khi xem dữ liệu.
  4. Phân tích phân phối sau và tóm tắt nó (trung bình, trung bình, sd, lượng tử, ...).

Cơ sở của tất cả các số liệu thống kê Bayes là định lý Bayes, đó là

poSterTôiorαprTôior×tôiTôiketôiTôihooCười mở miệng

Trong trường hợp của bạn, khả năng là nhị thức. Nếu phân phối trước và phân phối sau cùng thuộc một họ, phân phối trước và sau được gọi là phân phối liên hợp . Phân phối beta là liên hợp trước vì sau cũng là phân phối beta. Chúng tôi nói rằng phân phối beta là họ liên hợp cho khả năng nhị thức. Phân tích liên hợp là thuận tiện nhưng hiếm khi xảy ra trong các vấn đề thực tế. Trong hầu hết các trường hợp, phân phối sau phải được tìm thấy bằng số thông qua MCMC (sử dụng Stan, WinBUGS, OpenBUGS, JAGS, PyMC hoặc một số chương trình khác).

Nếu phân phối xác suất trước không tích hợp với 1, nó được gọi là phân phối không đúng trước, nếu phân tích xác suất trước 1, nó được gọi là phân phối thích hợp trước. Trong hầu hết các trường hợp, một ưu tiên không phù hợp không gây ra vấn đề lớn cho các phân tích Bayes. Phân phối sau phải phù hợp mặc dù, tức là sau phải tích hợp thành 1.

Các quy tắc này theo trực tiếp từ bản chất của quy trình phân tích Bayes:

  • Nếu trước đó là không chính xác, thì sau được xác định rất nhiều bởi dữ liệu (phía sau được điều khiển dữ liệu)
  • Nếu ưu tiên là thông tin, thì sau là hỗn hợp của trước và dữ liệu
  • Càng nhiều thông tin trước, bạn càng cần nhiều dữ liệu để "thay đổi" niềm tin của mình, có thể nói vì hậu thế bị chi phối rất nhiều bởi thông tin trước
  • Nếu bạn có nhiều dữ liệu, dữ liệu sẽ chiếm ưu thế trong phân phối sau (chúng sẽ áp đảo trước)

Một tổng quan tuyệt vời về một số linh mục "thông tin" và "không thông tin" có thể có cho bản phân phối beta có thể được tìm thấy trong bài viết này .

Giả sử phiên bản beta trước của bạn là Betmột(πLH|α,β) trong đó πLH là tỷ lệ của người thuận tay trái. Để xác định các thông số trước khi αβ , nó rất hữu ích để biết giá trị trung bình và phương sai của phân phối phiên bản beta (ví dụ, nếu bạn muốn trước khi bạn có một ý nghĩa nhất định và phương sai). Giá trị trung bình là π¯LH= =α/(α+β) . Vì vậy, bất cứ khi nào α= =β , giá trị trung bình là 0,5. Phương sai của phân phối beta là αβ(α+β)2(α+β+1) . Bây giờ, điều thuận tiện là bạn có thể nghĩ raαβnhư đã từng xuất hiện (pseudo-) dữ liệu, cụ thể làαngười thuận tay trái vàβngười thuận tay phải ra khỏi một (pseudo-) mẫu kích thướcviết sai rồieq= =α+β. CácBetmột(πLH|α= =1,β= =1)phân phối là đồng nhất (tất cả các giá trị của πLH đều có thể xảy ra như nhau) và tương đương với việc quan sát hai người trong đó một người thuận tay trái và một người thuận tay phải.

Phân phối beta sau chỉ đơn giản là Betmột(z+α,VIẾT SAI RỒI-z+β) trong đó VIẾT SAI RỒI là kích thước của mẫu và z là số người thuận tay trái trong mẫu. Giá trị trung bình sau của πLH do đó là (z+α)/(VIẾT SAI RỒI+α+β) . Vì vậy, để tìm các tham số của bản phân phối beta sau, chúng ta chỉ cần thêm z người thuận tay trái vào αVIẾT SAI RỒI-z người thuận tay phải đểβ . Phương sai sau là(z+α)(Nz+β)(N+α+β)2(N+α+β+1) . Lưu ý rằng một ưu tiên thông tin cao cũng dẫn đến một phương sai nhỏ hơn của phân phối sau (các biểu đồ dưới đây minh họa điểm độc đáo).

Trong trường hợp của bạn, z=2N=18 và các năm trước bạn là thống nhất đó là không đủ thông tin, vì vậy α=β=1 . Do đó, phân phối sau của bạn là Beta(3,17) . Giá trị trung bình sau là π¯LH=3/(3+17)=0.15 . Dưới đây là một biểu đồ cho thấy trước, khả năng của dữ liệu và sau

Ưu tiên, khả năng của dữ liệu và phân phối sau với đồng phục trước

Bạn thấy rằng vì phân phối trước của bạn là không chính xác, phân phối sau của bạn hoàn toàn được điều khiển bởi dữ liệu. Cũng âm mưu là khoảng mật độ cao nhất (HDI) cho phân phối sau. Hãy tưởng tượng rằng bạn đặt phân phối sau của bạn vào lưu vực 2D và bắt đầu đổ đầy nước cho đến khi 95% phân phối nằm trên mực nước. Các điểm mà đường nước giao nhau với phân bố sau tạo thành 95% -HDI. Mỗi điểm bên trong HDI có xác suất cao hơn bất kỳ điểm nào bên ngoài nó. Ngoài ra, HDI luôn bao gồm đỉnh của phân phối sau (tức là chế độ). HDI khác với khoảng tin cậy 95% đuôi bằng nhau trong đó 2,5% từ mỗi đuôi của hậu sinh được loại trừ (xem tại đây ).

Đối với nhiệm vụ thứ hai của bạn, bạn được yêu cầu kết hợp thông tin rằng 5-20% dân số là người thuận tay trái vào tài khoản. Có một số cách để làm điều đó. Cách dễ nhất là nói rằng bản phân phối beta trước đó phải có giá trị trung bình là 0.125 là giá trị trung bình của 0.050.2 . Nhưng làm thế nào để lựa chọn αβ của phân phối phiên bản beta trước? Đầu tiên, bạn muốn giá trị trung bình của phân phối trước là 0,125 trong mẫu giả có cỡ mẫu tương đương neq . Tổng quát hơn, nếu bạn muốn trước đó của bạn có giá trị trung bình m với cỡ giả mẫu neq, Tương ứng αβ giá trị là: α=mneqβ=(1m)neq . Tất cả những gì bạn còn lại phải làm bây giờ là chọn kích thước mẫu giả neq để xác định mức độ tin cậy của bạn về thông tin trước đó của bạn. Giả sử bạn rất chắc chắn về thông tin trước đó của mình và đặt neq=1000 . Các tham số của phân phối trước của bạn nằm ở đó α=0.1251000=125β=(10.125)1000=875 . Phân bố sau làBeta(127,891) với giá trị trung bình khoảng0.125 , thực tế giống như giá trị trung bình trước đó là0.125 . Thông tin trước đang thống trị phía sau (xem biểu đồ sau):

Ưu tiên, khả năng của dữ liệu và phân phối sau với thông tin mạnh mẽ trước

neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

Ưu tiên, khả năng của dữ liệu và phân phối sau với beta trước tương ứng với cỡ mẫu giả là 3

0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

Trước đó, khả năng của dữ liệu và phân phối sau với trước đó có 0,05 và 0,975 lượng tử 0,05 và 0,2

Xem thêm tài liệu tham khảo này để biết tổng quan ngắn nhưng tốt về lý luận Bayes và phân tích đơn giản. Giới thiệu dài hơn cho các phân tích liên hợp, đặc biệt là dữ liệu nhị thức có thể được tìm thấy ở đây . Một giới thiệu chung về tư duy Bayes có thể được tìm thấy ở đây . Nhiều slide liên quan đến các khía cạnh của thống kê Baysian ở đây .


1
Tại sao chúng tôi chọn phân phối Beta ở đây?
Metariat

1
(0,1)

Bạn có tình cờ vẫn có tài liệu cho "Giới thiệu về suy nghĩ Bayes" không? Liên kết Dropbox đã chết.
bs7280

@ bs7280 Tôi đã cập nhật các liên kết. Họ nên làm việc lại bây giờ.
COOLSerdash

1
@meduz Nói đúng ra, trước đây không có "thông tin" thực sự. Tôi muốn giới thiệu cho bạn câu trả lời xuất sắc của Tim trong cuộc thảo luận này.
COOLSerdash

8

αβ

P(r|Y1,...,n)P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

mà bạn đã chỉ ra tỷ lệ thuận với:

P(r|Y1,...,viết sai rồi) α (Y1,...,viết sai rồi|r)*P(r)

P(Y1,...,viết sai rồi|r)P(r|Y1,...viết sai rồi)αα+βαβ12αβ


1

Trong phần đầu tiên của câu hỏi, nó yêu cầu bạn xác định một từ thích hợp cho "r". Với dữ liệu nhị thức trong tay, sẽ là khôn ngoan khi chọn phân phối beta. Bởi vì sau đó sẽ là bản beta. Phân phối đồng phục là trường hợp đặc biệt của phiên bản beta, bạn có thể chọn trước "r" phân phối Đồng phục cho phép mọi giá trị có thể có của "r" đều có thể xảy ra như nhau.

Trong phần thứ hai, bạn đã cung cấp thông tin liên quan đến phân phối trước "r".

Với điều này trong tay câu trả lời của @ COOLSerdash sẽ cho bạn những hướng đi đúng đắn.

Cảm ơn bạn đã đăng câu hỏi này và COOLSerdash đã cung cấp một câu trả lời thích hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.