Các linh mục Bayes có trở nên không liên quan với cỡ mẫu lớn không?


26

Khi thực hiện suy luận Bayes, chúng tôi hoạt động bằng cách tối đa hóa chức năng khả năng của chúng tôi kết hợp với các linh mục mà chúng tôi có về các tham số. Vì khả năng đăng nhập thuận tiện hơn, chúng tôi tối đa hóa hiệu quả bằng cách sử dụng MCMC hoặc bằng cách khác tạo ra các bản phân phối sau (sử dụng pdf cho từng tham số trước và khả năng của từng điểm dữ liệu).Σln(trước)+Σln(khả năng)

Nếu chúng ta có nhiều dữ liệu, khả năng từ đó sẽ áp đảo bất kỳ thông tin nào mà trước đó cung cấp, bằng toán học đơn giản. Cuối cùng, điều này là tốt và theo thiết kế; chúng ta biết rằng hậu thế sẽ hội tụ khả năng có nhiều dữ liệu hơn vì nó được cho là như vậy.

Đối với các vấn đề được xác định bởi các linh mục liên hợp, điều này thậm chí có thể chứng minh chính xác.

Có cách nào để quyết định khi nào các linh mục không quan trọng đối với chức năng khả năng nhất định và một số cỡ mẫu?


3
Câu đầu tiên của bạn không đúng. Suy luận Bayes và thuật toán MCMC, không tối đa hóa khả năng.
niandra82

5
Bạn có quen thuộc với khả năng cận biên, các yếu tố Bayes, phân phối dự báo trước / sau, kiểm tra dự báo trước / sau? đây là những thứ bạn sẽ sử dụng để so sánh các mô hình trong Mô hình Bayes. Tôi nghĩ rằng câu hỏi này tập trung vào việc liệu yếu tố Bayes, giữa các mô hình chỉ khác nhau trước đó, sẽ hội tụ thành 1 khi kích thước mẫu đi đến vô cùng. Bạn cũng có thể muốn đặt các linh mục bị cắt cụt trong không gian tham số ngụ ý bởi khả năng, vì điều này có khả năng từ chối mục tiêu hội tụ đến ước tính khả năng tối đa.
Zachary Blumenfeld

@ZacharyBlumenfeld: điều này có thể đủ điều kiện là một câu trả lời thích hợp!
Tây An

Là hình thức sửa chữa "tối đa hóa quy tắc Bayes"? Ngoài ra, các mô hình tôi đang làm việc dựa trên cơ sở vật lý, vì vậy các không gian tham số bị cắt ngắn là cần thiết cho công việc. (Tôi cũng đồng ý rằng các nhận xét của bạn có thể là một câu trả lời, bạn có thể xác nhận chúng ra @ZacharyBlumenfeld không?)
pixel

Câu trả lời:


37

Nó không dễ như thế đâu. Thông tin trong dữ liệu của bạn lấn át thông tin trước không chỉ kích thước mẫu của bạn lớn mà khi dữ liệu của bạn cung cấp đủ thông tin để lấn át thông tin trước đó. Các linh mục không thông tin dễ dàng bị thuyết phục bởi dữ liệu, trong khi những người có thông tin mạnh mẽ có thể chống lại nhiều hơn. Trong trường hợp cực đoan, với các linh mục không xác định, dữ liệu của bạn hoàn toàn không thể vượt qua nó (ví dụ mật độ bằng không trên một số khu vực).

Hãy nhớ lại rằng theo định lý Bayes, chúng tôi sử dụng hai nguồn thông tin trong mô hình thống kê của mình, ngoài dữ liệu, thông tin trước và thông tin được truyền tải bởi dữ liệu theo hàm khả năng:

sauαtrước×khả năng

Khi sử dụng trước thông tin không chính xác (hoặc khả năng tối đa), chúng tôi cố gắng đưa thông tin trước tối thiểu có thể vào mô hình của chúng tôi. Với các linh mục thông tin, chúng tôi mang lượng thông tin đáng kể vào mô hình. Vì vậy, cả hai, dữ liệu và trước đó, cho chúng tôi biết giá trị nào của các tham số ước tính là hợp lý hơn hoặc đáng tin cậy hơn. Họ có thể mang lại thông tin khác nhau và mỗi người trong số họ có thể áp đảo người khác trong một số trường hợp.

Hãy để tôi minh họa điều này với mô hình nhị phân beta rất cơ bản (xem ở đây để biết ví dụ chi tiết ). Với "không thông tin" trước đó , mẫu khá nhỏ có thể đủ để chế ngự nó. Trên các ô bên dưới, bạn có thể thấy các linh mục (đường cong màu đỏ), khả năng (đường cong màu xanh) và đường sau (đường cong màu tím) của cùng một mô hình với các cỡ mẫu khác nhau.

nhập mô tả hình ảnh ở đây

Mặt khác, bạn có thể có thông tin trước gần với giá trị thực, điều đó cũng dễ dàng, nhưng không dễ dàng như với thông tin hàng tuần, bị thuyết phục bởi dữ liệu.

nhập mô tả hình ảnh ở đây

Trường hợp này rất khác với thông tin trước, khi nó khác xa với những gì dữ liệu nói (sử dụng cùng một dữ liệu như trong ví dụ đầu tiên). Trong trường hợp như vậy, bạn cần mẫu lớn hơn để vượt qua trước.

nhập mô tả hình ảnh ở đây

Vì vậy, nó không chỉ là về kích thước mẫu, mà còn về dữ liệu của bạn là gì và trước đó là gì. Lưu ý rằng đây là một hành vi mong muốn , bởi vì khi sử dụng các linh mục thông tin, chúng tôi muốn có khả năng bao gồm thông tin ngoài dữ liệu trong mô hình của chúng tôi và điều này là không thể nếu các mẫu lớn luôn loại bỏ các linh mục.

Do mối quan hệ trước-sau-phức tạp-quan hệ trước, nên luôn luôn tốt khi xem xét phân phối sau và thực hiện một số kiểm tra dự báo sau (Gelman, Meng và Stern, 1996; Gelman và Hill, 2006; Gelman et al, 2004). Hơn nữa, như được mô tả bởi Spiegelhalter (2004), bạn có thể sử dụng các linh mục khác nhau, ví dụ "bi quan" thể hiện sự nghi ngờ về các hiệu ứng lớn hoặc "nhiệt tình" lạc quan về các hiệu ứng ước tính. So sánh cách các linh mục khác nhau cư xử với dữ liệu của bạn có thể giúp đánh giá một cách không chính thức mức độ ảnh hưởng của hậu thế trước đó.


Spiegelhalter, DJ (2004). Kết hợp các ý tưởng Bayes vào đánh giá chăm sóc sức khỏe. Khoa học thống kê, 156-174.

Gelman, A., Carlin, JB, Stern, HS và Rubin, DB (2004). Phân tích dữ liệu Bayes. Chapman & Hội trường / CRC.

Gelman, A. và Hill, J. (2006). Phân tích dữ liệu bằng mô hình hồi quy và mô hình đa cấp / phân cấp. Nhà xuất bản Đại học Cambridge.

Gelman, A., Mạnh, XL và Stern, H. (1996). Đánh giá dự báo sau của thể dục mô hình thông qua sự khác biệt nhận ra. Statistica sinica, 733-760.


2
Đóng góp tốt đẹp, cảm ơn bạn Tim. Tôi muốn nói thêm rằng độ tương phản mà bạn bố trí rất độc đáo ở đây có thể thể hiện ngay cả trong một và cùng một mô hình có liên quan đến các tham số khác nhau của mô hình đó. Có thể có một số thông số về việc dữ liệu cung cấp thông tin không đáng kể, trong trường hợp đó, các linh mục có thể phục vụ nghiêm túc để cung cấp các hạn chế xác định .
David C. Norris

Trong ma trận 3x3 đầu tiên của đồ thị, đồ thị có đúng không? Các hậu thế hoàn toàn bằng phẳng lên đến và bao gồm n = 25?
MichiganWater

1
@MichiganWater mỗi bộ sưu tập 9 ô sử dụng cùng một tỷ lệ cho trục y để các giá trị lớn nhất không xuất hiện trên màn hình. Vì vậy, chúng phẳng tương đối với trường hợp bạn có nhiều dữ liệu hơn. Nếu bạn "phóng to", chúng sẽ không phẳng.
Tim

11

Khi thực hiện suy luận Bayes, chúng tôi hoạt động bằng cách tối đa hóa chức năng khả năng của chúng tôi kết hợp với các linh mục mà chúng tôi có về các tham số.

Đây thực sự không phải là những gì hầu hết các học viên coi là suy luận Bayes. Có thể ước tính các tham số theo cách này, nhưng tôi sẽ không gọi nó là suy luận Bayes.

Suy luận Bayes sử dụng phân phối sau để tính xác suất sau (hoặc tỷ lệ xác suất) cho các giả thuyết cạnh tranh.

Phân phối sau có thể được ước tính theo kinh nghiệm bằng các kỹ thuật Monte Carlo hoặc Markov-Chain Monte Carlo (MCMC).

Đặt những sự phân biệt này sang một bên, câu hỏi

Các linh mục Bayes có trở nên không liên quan với cỡ mẫu lớn không?

vẫn phụ thuộc vào bối cảnh của vấn đề và những gì bạn quan tâm.

Nếu những gì bạn quan tâm là dự báo đưa ra một mẫu đã rất lớn, thì câu trả lời thường là có, priors là tiệm không liên quan *. Tuy nhiên, nếu điều bạn quan tâm là lựa chọn mô hình và thử nghiệm giả thuyết Bayes, thì câu trả lời là không, các linh mục rất quan trọng, và hiệu quả của chúng sẽ không suy giảm với kích thước mẫu.

* Ở đây, tôi giả định rằng các linh mục không bị cắt / kiểm duyệt vượt quá không gian tham số ngụ ý bởi khả năng, và họ không bị quy định sai đến mức gây ra các vấn đề hội tụ với mật độ gần bằng 0 ở các khu vực quan trọng. Đối số của tôi cũng không có triệu chứng, đi kèm với tất cả các cảnh báo thông thường.

Mật độ dự đoán

dN= =(d1,d2,...,dN)dtôif(dN|θ)θ

π0(θ|λ1)π0(θ|λ2)λ1λ2

πN(θ|dN,λj)αf(dN|θ)π0(θ|λj)forj= =1,2

θ*θNj~πN(θ|dN,λj)θ^N= =tối đaθ{f(dN|θ)}θN1θN2θ^Nθ*ε>0

limNPr(|θNj-θ*|ε)= =0j{1,2}limNPr(|θ^N-θ*|ε)= =0

θNj= =tối đaθ{πN(θ|dN,λj)}

f(d~|dN,λj)= =Θf(d~|θ,λj,dN)πN(θ|λj,dN)dθf(d~|dN,θNj)f(d~|dN,θ*)

Lựa chọn mô hình và kiểm tra giả thuyết

Nếu một người quan tâm đến việc lựa chọn mô hình và thử nghiệm giả thuyết Bayes, họ nên biết rằng hiệu quả của việc trước không biến mất một cách không có triệu chứng.

f(dN|modetôi)

KN= =f(dN|modetôi1)f(dN|modetôi2)
Pr(modetôij|dN)= =f(dN|modetôij)Pr(modetôij)Σtôi= =1Lf(dN|modetôitôi)Pr(modetôitôi)

f(dN|λj)= =Θf(dN|θ,λj)π0(θ|λj)dθ

f(dN|λj)= =Πn= =0N-1f(dn+1|dn,λj)
f(dN+1|dN,λj)f(dN+1|dN,θ*)f(dN|λ1)f(dN|θ*)f(dN|λ2)
f(dN|λ1)f(dN|λ2)p1
h(dN|M)= =Θh(dN|θ,M)π0(θ|M)dθ
f(dN|λ1)h(dN|M)f(dN|λ2)h(dN|M)

5

Một vấn đề khác cần lưu ý là bạn có thể có rất nhiều dữ liệu , nhưng vẫn có rất ít thông tin về các tham số nhất định trong mô hình của bạn. Trong những trường hợp như vậy, ngay cả một thông tin nhẹ trước đó có thể cực kỳ hữu ích khi thực hiện suy luận.

Một ví dụ ngớ ngẩn, giả sử bạn đang so sánh phương tiện của hai nhóm và bạn đã có 1.000.000 mẫu của nhóm 1 và 10 mẫu của nhóm 2. Sau đó, rõ ràng có một thông tin trước về nhóm 2 có thể cải thiện suy luận, mặc dù bạn đã thu thập được hơn một triệu mẫu.

Và trong khi ví dụ đó có thể là tầm thường, nó bắt đầu dẫn đến một số ý nghĩa rất quan trọng. Nếu chúng ta muốn hiểu một số hiện tượng phức tạp, điều thông minh cần làm là thu thập nhiều thông tin liên quan đến các phần chúng ta không hiểu và ít thông tin về các phần chúng ta hiểu. Nếu chúng ta thu thập nhiều dữ liệu theo cách như vậy, việc loại bỏ trước vì chúng ta có nhiều dữ liệu là một lựa chọn thực sự tồi tệ; chúng tôi vừa thiết lập lại phân tích của mình vì chúng tôi đã không lãng phí thời gian để thu thập dữ liệu về những điều chúng tôi đã biết!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.