Trước tiên hãy để tôi giải thích những gì một liên hợp là trước . Sau đó tôi sẽ giải thích các phân tích Bayes bằng ví dụ cụ thể của bạn. Thống kê Bayes bao gồm các bước sau:
- Xác định phân phối trước kết hợp niềm tin chủ quan của bạn về một tham số (trong ví dụ của bạn, tham số quan tâm là tỷ lệ của người thuận tay trái). Ưu tiên có thể là "không chính xác" hoặc "thông tin" (nhưng không có ưu tiên nào không có thông tin, xem thảo luận tại đây ).
- Thu thập dữ liệu.
- Cập nhật phân phối trước của bạn với dữ liệu bằng định lý Bayes để có được phân phối sau. Phân phối sau là phân phối xác suất đại diện cho niềm tin cập nhật của bạn về tham số sau khi xem dữ liệu.
- Phân tích phân phối sau và tóm tắt nó (trung bình, trung bình, sd, lượng tử, ...).
Cơ sở của tất cả các số liệu thống kê Bayes là định lý Bayes, đó là
p o s t e r i o r ∝ p r i o r × l i k e l i h o o d
Trong trường hợp của bạn, khả năng là nhị thức. Nếu phân phối trước và phân phối sau cùng thuộc một họ, phân phối trước và sau được gọi là phân phối liên hợp . Phân phối beta là liên hợp trước vì sau cũng là phân phối beta. Chúng tôi nói rằng phân phối beta là họ liên hợp cho khả năng nhị thức. Phân tích liên hợp là thuận tiện nhưng hiếm khi xảy ra trong các vấn đề thực tế. Trong hầu hết các trường hợp, phân phối sau phải được tìm thấy bằng số thông qua MCMC (sử dụng Stan, WinBUGS, OpenBUGS, JAGS, PyMC hoặc một số chương trình khác).
Nếu phân phối xác suất trước không tích hợp với 1, nó được gọi là phân phối không đúng trước, nếu phân tích xác suất trước 1, nó được gọi là phân phối thích hợp trước. Trong hầu hết các trường hợp, một ưu tiên không phù hợp không gây ra vấn đề lớn cho các phân tích Bayes. Phân phối sau phải phù hợp mặc dù, tức là sau phải tích hợp thành 1.
Các quy tắc này theo trực tiếp từ bản chất của quy trình phân tích Bayes:
- Nếu trước đó là không chính xác, thì sau được xác định rất nhiều bởi dữ liệu (phía sau được điều khiển dữ liệu)
- Nếu ưu tiên là thông tin, thì sau là hỗn hợp của trước và dữ liệu
- Càng nhiều thông tin trước, bạn càng cần nhiều dữ liệu để "thay đổi" niềm tin của mình, có thể nói vì hậu thế bị chi phối rất nhiều bởi thông tin trước
- Nếu bạn có nhiều dữ liệu, dữ liệu sẽ chiếm ưu thế trong phân phối sau (chúng sẽ áp đảo trước)
Một tổng quan tuyệt vời về một số linh mục "thông tin" và "không thông tin" có thể có cho bản phân phối beta có thể được tìm thấy trong bài viết này .
Giả sử phiên bản beta trước của bạn là B đ t một ( πL H|α,β) trong đó πLH là tỷ lệ của người thuận tay trái. Để xác định các thông số trước khi α và β , nó rất hữu ích để biết giá trị trung bình và phương sai của phân phối phiên bản beta (ví dụ, nếu bạn muốn trước khi bạn có một ý nghĩa nhất định và phương sai). Giá trị trung bình là π¯LH=α/(α+β) . Vì vậy, bất cứ khi nào α=β , giá trị trung bình là 0.5. Phương sai của phân phối beta là αβ(α+β)2(α+β+1) . Bây giờ, điều thuận tiện là bạn có thể nghĩ raαvàβnhư đã từng xuất hiện (pseudo-) dữ liệu, cụ thể làαngười thuận tay trái vàβngười thuận tay phải ra khỏi một (pseudo-) mẫu kích thướcneq=α+β. CácBeta(πLH|α=1,β=1)phân phối là đồng nhất (tất cả các giá trị của πLH đều có thể xảy ra như nhau) và tương đương với việc quan sát hai người trong đó một người thuận tay trái và một người thuận tay phải.
Phân phối beta sau chỉ đơn giản là Beta(z+α,N−z+β) trong đó N là kích thước của mẫu và z là số người thuận tay trái trong mẫu. Giá trị trung bình sau của πLH do đó là (z+α)/(N+α+β) . Vì vậy, để tìm các tham số của bản phân phối beta sau, chúng ta chỉ cần thêm z người thuận tay trái vào α vàN−z người thuận tay phải đểβ . Phương sai sau là(z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Lưu ý rằng một ưu tiên thông tin cao cũng dẫn đến một phương sai nhỏ hơn của phân phối sau (các biểu đồ dưới đây minh họa điểm độc đáo).
Trong trường hợp của bạn, z=2 và N=18 và các năm trước bạn là thống nhất đó là không đủ thông tin, vì vậy α=β=1 . Do đó, phân phối sau của bạn là Beta(3,17) . Giá trị trung bình sau là π¯LH= 3 / ( 3 + 17 ) = 0,15 . Dưới đây là một biểu đồ cho thấy trước, khả năng của dữ liệu và sau
Bạn thấy rằng vì phân phối trước của bạn là không chính xác, phân phối sau của bạn hoàn toàn được điều khiển bởi dữ liệu. Cũng âm mưu là khoảng mật độ cao nhất (HDI) cho phân phối sau. Hãy tưởng tượng rằng bạn đặt phân phối sau của bạn vào lưu vực 2D và bắt đầu đổ đầy nước cho đến khi 95% phân phối nằm trên mực nước. Các điểm mà đường nước giao nhau với phân bố sau tạo thành 95% -HDI. Mỗi điểm bên trong HDI có xác suất cao hơn bất kỳ điểm nào bên ngoài nó. Ngoài ra, HDI luôn bao gồm đỉnh của phân phối sau (tức là chế độ). HDI khác với khoảng tin cậy 95% đuôi bằng nhau trong đó 2,5% từ mỗi đuôi của hậu sinh được loại trừ (xem tại đây ).
Đối với nhiệm vụ thứ hai của bạn, bạn được yêu cầu kết hợp thông tin rằng 5-20% dân số là người thuận tay trái vào tài khoản. Có một số cách để làm điều đó. Cách dễ nhất là nói rằng bản phân phối beta trước đó phải có giá trị trung bình là 0,125 là giá trị trung bình của 0,05 và 0,2 . Nhưng làm thế nào để lựa chọn α và β của phân phối phiên bản beta trước? Đầu tiên, bạn muốn giá trị trung bình của phân phối trước là 0,125 trong mẫu giả có cỡ mẫu tương đương viết sai rồie q . Tổng quát hơn, nếu bạn muốn trước đó của bạn có giá trị trung bình m với cỡ giả mẫu viết sai rồie q, Tương ứng α và β giá trị là: α = m ne q và β= ( 1 - m ) ne q . Tất cả những gì bạn còn lại phải làm bây giờ là chọn kích thước mẫu giả viết sai rồie q để xác định mức độ tin cậy của bạn về thông tin trước đó của bạn. Giả sử bạn rất chắc chắn về thông tin trước đó của mình và đặt viết sai rồie q= 1000 . Các tham số của phân phối trước của bạn nằm ở đó α = 0,125 ⋅ 1000 = 125 vàβ= ( 1 - 0,125 ) ⋅ 1000 = 875 . Phân bố sau làB e t a (127,891) với giá trị trung bình khoảng0,125 , thực tế giống như giá trị trung bình trước đó là0,125 . Thông tin trước đang thống trị phía sau (xem biểu đồ sau):
viết sai rồie q10α = 1,25β= 8,75B e t a (3,25,24,75)0,160,1111
0,0250,050,9750,2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
α = 7,61β= 59,137.61 / ( 7.61 + 59.13 ) ≈ 0.1140,1111viết sai rồie q≈ 7.61 + 59,13 ≈ 66,74B e t a (9.61,75.13)0,13B e t a (125,875)
Xem thêm tài liệu tham khảo này để biết tổng quan ngắn nhưng tốt về lý luận Bayes và phân tích đơn giản. Giới thiệu dài hơn cho các phân tích liên hợp, đặc biệt là dữ liệu nhị thức có thể được tìm thấy ở đây . Một giới thiệu chung về tư duy Bayes có thể được tìm thấy ở đây . Nhiều slide liên quan đến các khía cạnh của thống kê Baysian ở đây .