Tỷ lệ khả năng so với yếu tố Bayes


61

Tôi khá truyền giáo liên quan đến việc sử dụng các tỷ lệ khả năng để đại diện cho bằng chứng khách quan cho / chống lại một hiện tượng nhất định. Tuy nhiên, gần đây tôi đã biết rằng yếu tố Bayes phục vụ một chức năng tương tự trong bối cảnh các phương pháp Bayes (tức là sự chủ quan trước đó được kết hợp với yếu tố Bayes khách quan để mang lại một trạng thái niềm tin chủ quan được cập nhật khách quan). Bây giờ tôi đang cố gắng tìm hiểu sự khác biệt về tính toán và triết học giữa tỷ lệ khả năng và yếu tố Bayes.

Ở cấp độ tính toán, tôi hiểu rằng mặc dù tỷ lệ khả năng thường được tính bằng cách sử dụng khả năng đại diện cho khả năng tối đa cho từng tham số hóa tương ứng của mô hình (được ước tính bằng xác thực chéo hoặc bị phạt theo độ phức tạp của mô hình bằng AIC), rõ ràng yếu tố Bayes sử dụng khả năng đại diện cho khả năng của từng mô hình được tích hợp trên toàn bộ không gian tham số của nó (tức là không chỉ ở MLE). Sự tích hợp này thực sự đạt được như thế nào? Có phải người ta thực sự chỉ cố gắng tính toán khả năng ở mỗi hàng ngàn (hàng triệu?) Các mẫu ngẫu nhiên từ không gian tham số, hoặc có phương pháp phân tích nào để tích hợp khả năng trên không gian tham số không? Ngoài ra, khi tính toán yếu tố Bayes,

Ngoài ra, sự khác biệt về triết học giữa tỷ lệ khả năng và yếu tố Bayes là gì (nb Tôi không hỏi về sự khác biệt về triết học giữa tỷ lệ khả năng và phương pháp Bayes nói chung, nhưng yếu tố Bayes như là một đại diện cụ thể của bằng chứng khách quan). Làm thế nào một người có thể mô tả ý nghĩa của yếu tố Bayes so với tỷ lệ khả năng?


5
Bạn đã xem xét ví dụ trong Wikipedia
Henry

1
Cuốn sách của Chen, Shao và Ibrahim (2000) dành riêng cho tính toán Monte Carlo của các yếu tố Bayes.
Tây An

Câu trả lời:


36

rõ ràng yếu tố Bayes bằng cách nào đó sử dụng khả năng đại diện cho khả năng của từng mô hình được tích hợp trên toàn bộ không gian tham số của nó (tức là không chỉ ở MLE). Sự tích hợp này thực sự đạt được như thế nào? Có phải người ta thực sự chỉ cố gắng tính toán khả năng ở mỗi hàng ngàn (hàng triệu?) Các mẫu ngẫu nhiên từ không gian tham số, hoặc có phương pháp phân tích nào để tích hợp khả năng trên không gian tham số không?

Đầu tiên, bất kỳ tình huống nào bạn xem xét một thuật ngữ như cho dữ liệu và mô hình được coi là một mô hình khả năng . Đây thường là bánh mì và bơ của bất kỳ phân tích thống kê, thường xuyên hoặc Bayes, và đây là phần mà phân tích của bạn có nghĩa là gợi ý là phù hợp tốt hoặc phù hợp xấu. Vì vậy, các yếu tố Bayes không làm bất cứ điều gì khác biệt cơ bản so với tỷ lệ khả năng.P(D|M)DM

Điều quan trọng là đặt các yếu tố Bayes trong cài đặt đúng của chúng. Khi bạn có hai mô hình, giả sử và bạn chuyển đổi từ xác suất thành tỷ lệ cược, thì các yếu tố Bayes hoạt động như một nhà điều hành dựa trên niềm tin trước đó:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

Sự khác biệt thực sự là tỷ lệ khả năng rẻ hơn để tính toán và nói chung về mặt khái niệm dễ dàng hơn để xác định. Khả năng tại MLE chỉ là ước tính điểm của tử số và mẫu số của yếu tố Bayes, tương ứng. Giống như hầu hết các công trình thường xuyên, nó có thể được xem như là một trường hợp đặc biệt của phân tích Bayes với một kế hoạch trước đó khó có thể đạt được. Nhưng chủ yếu là nó phát sinh bởi vì nó dễ phân tích và dễ tính toán hơn (trong thời đại trước khi các phương pháp tính toán gần đúng của Bayes phát sinh).

Về điểm tính toán, có: bạn sẽ đánh giá các tích phân khả năng khác nhau trong môi trường Bayes với quy trình Monte Carlo quy mô lớn trong hầu hết mọi trường hợp quan tâm thực tế. Có một số mô phỏng chuyên dụng, chẳng hạn như GHK, hoạt động nếu bạn giả sử một số phân phối nhất định và nếu bạn đưa ra các giả định này, đôi khi bạn có thể tìm thấy các vấn đề có thể phân tích được khi có các yếu tố Bayes phân tích đầy đủ.

Nhưng không ai sử dụng những thứ này; không có lý do để. Với các bộ lấy mẫu Metropolis / Gibbs được tối ưu hóa và các phương pháp MCMC khác, hoàn toàn có thể dễ dàng tiếp cận các vấn đề này theo cách hoàn toàn dựa trên dữ liệu và tính toán các tích phân của bạn bằng số. Trên thực tế, người ta thường sẽ thực hiện việc này theo thứ bậc và tích hợp hơn nữa các kết quả trên các siêu mục có liên quan đến các cơ chế thu thập dữ liệu, các thiết kế thử nghiệm không thể bỏ qua, v.v.

Tôi giới thiệu cuốn sách Phân tích dữ liệu Bayes để biết thêm về điều này. Mặc dù, tác giả, Andrew Gelman, dường như không quan tâm quá nhiều đến các yếu tố Bayes . Như một bên, tôi đồng ý với Gelman. Nếu bạn định đi Bayesian, thì hãy khai thác toàn bộ hậu thế. Thực hiện lựa chọn mô hình bằng các phương pháp Bayes giống như tàn tật chúng, bởi vì lựa chọn mô hình là một hình thức suy luận yếu và chủ yếu là vô dụng. Tôi muốn biết phân phối hơn các lựa chọn mô hình nếu tôi có thể ... ai quan tâm đến việc định lượng nó xuống "mô hình A tốt hơn mô hình B" các loại câu lệnh khi bạn không phải làm gì?

Ngoài ra, khi tính toán hệ số Bayes, liệu người ta có áp dụng hiệu chỉnh cho độ phức tạp (tự động thông qua ước tính xác thực chéo về khả năng hoặc phân tích qua AIC) như với tỷ lệ khả năng không?

Đây là một trong những điều tốt đẹp về phương pháp Bayes. Các yếu tố Bayes tự động chiếm sự phức tạp của mô hình theo nghĩa kỹ thuật. Bạn có thể thiết lập một kịch bản đơn giản với hai mô hình, và với độ phức tạp của mô hình giả định và , tương ứng với và kích thước mẫu .M1M2d1d2d1<d2N

Sau đó, nếu là yếu tố Bayes với trong tử số, với giả định rằng là đúng, người ta có thể chứng minh rằng khi , tiếp cận với một tốc độ mà phụ thuộc vào sự khác biệt trong mô hình phức tạp, và đó là yếu tố Bayes ủng hộ mô hình đơn giản hơn. Cụ thể hơn, bạn có thể chỉ ra rằng theo tất cả các giả định ở trên,B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

Tôi quen thuộc với sự phát sinh này và cuộc thảo luận từ cuốn sách Finite Mixture và Markov Switching Model của tác giả Sylvia Frühwirth-Schnatter, nhưng có nhiều tài khoản thống kê trực tiếp đi sâu hơn vào nhận thức luận về nó.

Tôi không biết rõ các chi tiết đủ để cung cấp cho họ ở đây, nhưng tôi tin rằng có một số mối liên hệ lý thuyết khá sâu sắc giữa điều này và sự phát sinh của AIC. Cuốn sách Lý thuyết thông tin của Cover và Thomas đã gợi ý về điều này ít nhất.

Ngoài ra, sự khác biệt về triết học giữa tỷ lệ khả năng và yếu tố Bayes là gì (nb Tôi không hỏi về sự khác biệt về triết học giữa tỷ lệ khả năng và phương pháp Bayes nói chung, nhưng yếu tố Bayes như là một đại diện cụ thể của bằng chứng khách quan). Làm thế nào một người có thể mô tả ý nghĩa của yếu tố Bayes so với tỷ lệ khả năng?

Phần bài viết trên Wikipedia về "Giải thích" thực hiện tốt công việc thảo luận về vấn đề này (đặc biệt là biểu đồ cho thấy sức mạnh của thang đo bằng chứng của Jeffreys).

Giống như thường lệ, không có quá nhiều thứ triết học ngoài những khác biệt cơ bản giữa phương pháp Bayes và phương pháp thường xuyên (mà bạn dường như đã quen thuộc).

Điều chính là tỷ lệ khả năng không nhất quán trong một ý nghĩa cuốn sách Hà Lan. Bạn có thể pha chế các tình huống trong đó lựa chọn mô hình suy luận từ tỷ lệ khả năng sẽ khiến người ta chấp nhận đặt cược thua. Phương pháp Bayes mạch lạc, nhưng hoạt động theo ưu tiên có thể cực kỳ kém và phải được lựa chọn một cách chủ quan. Đánh đổi .. đánh đổi ...

FWIW, tôi nghĩ rằng loại lựa chọn mô hình tham số hóa nặng nề này không phải là suy luận rất tốt. Tôi thích các phương pháp Bayes và tôi thích tổ chức chúng theo thứ bậc hơn và tôi muốn suy luận tập trung vào phân phối sau đầy đủ nếu hoàn toàn khả thi về mặt tính toán để làm như vậy. Tôi nghĩ các yếu tố Bayes có một số tính chất toán học gọn gàng, nhưng với tư cách là một người Bayes, tôi không ấn tượng với chúng. Họ che giấu phần thực sự hữu ích trong phân tích Bayes, đó là nó buộc bạn phải đối phó với các linh mục của mình ngoài trời thay vì quét chúng dưới tấm thảm, và cho phép bạn suy luận về hậu thế đầy đủ.


"Giống như thường lệ, không có quá nhiều thứ triết học ngoài sự khác biệt cơ bản giữa phương pháp Bayes và phương pháp thường xuyên (mà bạn dường như đã quen thuộc). Điều chính là thử nghiệm tỷ lệ khả năng ..." Chỉ là một điểm cần làm rõ, tôi đã không làm rõ Không có ý định so sánh các yếu tố Bayes với các thử nghiệm tỷ lệ khả năng , nhưng với tỷ lệ khả năng của chính họ, không có hành lý kiểm tra giả thuyết thường xuyên / null.
Mike Lawrence

Theo cách làm rõ của tôi ở trên: Do đó, dường như, sự khác biệt lớn giữa BF và LR là, như bạn nói, tự động sửa lỗi trước cho độ phức tạp nhưng đòi hỏi nhiều tính toán trong khi cái sau đòi hỏi tính toán ít hơn nhiều nhưng yêu cầu hiệu chỉnh rõ ràng cho độ phức tạp của mô hình (sử dụng AIC, tính toán nhanh hoặc xác thực chéo, chi phí tính toán cao hơn).
Mike Lawrence

Xin lỗi, kiểm tra tỷ lệ khả năng là một lỗi đánh máy, nên chỉ là tỷ lệ khả năng. Tôi nghĩ bạn gần như đúng, nhưng bạn vẫn đang thiếu bức tranh lớn hơn rằng tỷ lệ khả năng chỉ là ước tính điểm. Nó sẽ chỉ hữu ích nếu các phân phối xác suất cơ bản hoạt động tốt với xấp xỉ bậc hai trong vùng lân cận của MLE .. Các yếu tố Bayes không cần quan tâm đến các thuộc tính phân phối tiệm cận như thế này, vì vậy nó đặc biệt tổng quát hơn. Nó bao gồm suy luận lựa chọn mô hình dựa trên MLE.
ely

1
Nói cách khác, MLE có thể được xem như là một công cụ ước tính sau (MAP) tối đa, chỉ với một mức độ không phù hợp trước đó (khi tích hợp cho phép điều này) và MAP là một ước tính điểm hấp dẫn hơn vì nó kết hợp thông tin trước. Bây giờ, thay vì chỉ chọn chế độ của hậu thế ... tại sao không kết hợp tất cả các giá trị của hậu thế theo xác suất trước của chúng? Nó sẽ không cung cấp cho bạn ước tính điểm của các tham số, nhưng hầu hết mọi người thường không thực sự muốn ước tính điểm. Phân phối qua các thông số luôn có ích hơn các ước lượng điểm khi bạn có thể đủ khả năng để có được chúng
ely

11

Để hiểu sự khác biệt giữa tỷ lệ khả năng và các yếu tố Bayes, rất hữu ích khi xem xét một tính năng chính của các yếu tố Bayes chi tiết hơn:

Làm thế nào để các yếu tố Bayes quản lý để tự động tính đến sự phức tạp của các mô hình cơ bản?

Một quan điểm về câu hỏi này là xem xét các phương pháp cho suy luận gần đúng xác định. Variational Bayes là một trong những phương pháp như vậy. Nó có thể không chỉ làm giảm đáng kể độ phức tạp tính toán của các xấp xỉ ngẫu nhiên (ví dụ, lấy mẫu MCMC). Variational Bayes cũng cung cấp một sự hiểu biết trực quan về những gì tạo nên một yếu tố Bayes.

Trước tiên, hãy nhớ lại rằng một yếu tố Bayes dựa trên bằng chứng mô hình của hai mô hình cạnh tranh,

BF1,2=p(dataM1)p(dataM2),

trong đó các bằng chứng mô hình riêng lẻ sẽ phải được tính bằng một tích phân phức tạp:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

Tích phân này không chỉ cần thiết để tính toán một yếu tố Bayes; nó cũng cần thiết để suy luận về chính các tham số, tức là khi tính toán .p(θdata,Mi)

Một cách tiếp cận Bayes biến đổi dạng cố định giải quyết vấn đề này bằng cách đưa ra một giả định phân phối về các hậu thế có điều kiện (ví dụ, một giả định Gaussian). Điều này biến một vấn đề tích hợp khó khăn thành một vấn đề tối ưu hóa dễ dàng hơn nhiều: vấn đề tìm kiếm các khoảnh khắc của mật độ gần đúng gần giống với , nhưng không rõ, sau .q(θ)p(θdata,Mi)

Phép tính biến đổi cho chúng ta biết rằng điều này có thể đạt được bằng cách tối đa hóa cái gọi là năng lượng tự do âm , liên quan trực tiếp đến bằng chứng mô hình nhật ký:F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

Từ điều này, bạn có thể thấy rằng tối đa hóa năng lượng tự do tiêu cực không chỉ cung cấp cho chúng ta một hậu thế gần đúng . Vì phân kỳ Kullback - Leibler không âm, cũng cung cấp giới hạn thấp hơn trên chính bằng chứng mô hình (log) .q(θ)p(θdata,Mi)F

Bây giờ chúng ta có thể quay lại câu hỏi ban đầu về cách một yếu tố Bayes tự động cân bằng mức độ phù hợp và độ phức tạp của các mô hình liên quan. Nó chỉ ra rằng năng lượng tự do tiêu cực có thể được viết lại như sau:

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

Thuật ngữ đầu tiên là khả năng đăng nhập của dữ liệu dự kiến ​​dưới hậu thế gần đúng; nó đại diện cho sự tốt đẹp của sự phù hợp (hoặc độ chính xác ) của mô hình. Thuật ngữ thứ hai là phân kỳ KL giữa hậu thế gần đúng và trước; nó đại diện cho sự phức tạp của mô hình, theo quan điểm rằng mô hình đơn giản hơn là mô hình phù hợp hơn với niềm tin trước đây của chúng tôi hoặc theo quan điểm rằng một mô hình đơn giản hơn không phải kéo dài nhiều để phù hợp với dữ liệu.

Giá trị gần đúng của năng lượng tự do với bằng chứng mô hình nhật ký cho thấy bằng chứng mô hình kết hợp sự đánh đổi giữa việc mô hình hóa dữ liệu (nghĩa là mức độ phù hợp) và vẫn phù hợp với trước đó (nghĩa là đơn giản hoặc phức tạp âm).

Do đó, một yếu tố Bayes (trái ngược với tỷ lệ khả năng) cho biết mô hình nào trong hai mô hình cạnh tranh tốt hơn trong việc cung cấp một lời giải thích đơn giản nhưng chính xác về dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.