Bayes: nô lệ của chức năng khả năng?


62

Trong cuốn sách "Tất cả các số liệu thống kê", Giáo sư Larry Wasserman trình bày ví dụ sau (11.10, trang 188). Giả sử chúng ta có một mật độ mà , nơi là một nổi tiếng (không âm, khả tích) chức năng, và bình thường hóa liên tục là chưa biết .f ( x ) = cfg c > 0f(x)=cg(x)gc>0

Chúng tôi quan tâm đến những trường hợp không thể tính được . Ví dụ, có thể trường hợp là pdf trên một không gian mẫu rất cao.fc=1/g(x)dxf

Người ta biết rằng có các kỹ thuật mô phỏng cho phép chúng ta lấy mẫu từ , mặc dù chưa biết. Do đó, câu đố là: Làm thế nào chúng ta có thể ước tính từ một mẫu như vậy?c cfcc

Giáo sư Wasserman mô tả các giải pháp Bayesian sau: để cho có một số trước cho . Khả năng là Do đó, hậu thế không phụ thuộc vào các giá trị mẫu . Do đó, Bayes không thể sử dụng thông tin trong mẫu để suy luận về .c L x ( c ) = n i = 1 f ( x i ) = n i = 1 ( cπcπ ( c | x ) α c n π ( c ) x 1 , ... , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Giáo sư Wasserman chỉ ra rằng "Bayes là nô lệ của chức năng khả năng. Khi khả năng xảy ra, điều đó sẽ khiến Bayes suy luận".

Câu hỏi của tôi cho các stacker đồng nghiệp của tôi là: Liên quan đến ví dụ cụ thể này, điều gì đã xảy ra (nếu có gì) với phương pháp Bayes?

PS Như giáo sư Wasserman vui lòng giải thích trong câu trả lời của mình, ví dụ là do Ed George.


10
Ví dụ này nghe có vẻ giống như một cách không hiệu quả kỳ lạ để tiến hành tích hợp số hơn là giống như bất kỳ phân tích Bayes nào.
whuber

2
Làm thế nào bạn có thể nói Bayesian không học được gì về . Nếu đây là trường hợp, chúng ta sẽ có . Rõ ràng là không. π ( c | x ) π ( c )cπ(c|x)π(c)
xác suất

2
Tôi không thực sự hiểu ví dụ này. Nếu không phụ thuộc vào thì không có gì ngạc nhiên khi dữ liệu không mang tính thông tin vì chỉ phụ thuộc vào dạng và có giống với mẫu nào không? Tôi rõ ràng đang thiếu một số điểm tinh tế (hoặc không quá tinh tế). c c g ( ) a n yg()ccg()any
Dikran Marsupial

Tôi đã thực hiện một cách tiếp cận Bayes chính thức có thể vượt qua sự phản đối của @ Zen, không chống lại sự thiếu quan tâm của Xi'an và cuối cùng chỉ đánh giá tính chính xác của tích hợp số.
phaneron

1
Một theo dõi tốt đẹp trên blog của Larry: Normaldeviate.wordpress.com/2012/10/05/ trên
Zen

Câu trả lời:


43

Điều này đã được thảo luận trong bài báo của tôi (chỉ được xuất bản trên internet) "Trên một ví dụ về Larry Wasserman" [ 1 ] và trong một cuộc trao đổi blog giữa tôi, Wasserman, Robins và một số người bình luận khác trên blog của Wasserman: [ 2 ]

Câu trả lời ngắn gọn là Wasserman (và Robins) tạo ra nghịch lý bằng cách gợi ý rằng các linh mục trong không gian chiều cao "phải" có các đặc điểm ngụ ý rằng tham số quan tâm được biết là một tiên nghiệm gần như chắc chắn hoặc là một vấn đề có liên quan rõ ràng (sai lệch lựa chọn) được biết đến với sự chắc chắn gần như không có mặt. Trong thực tế, các linh mục nhạy cảm sẽ không có những đặc điểm này. Tôi đang trong quá trình viết một bài đăng blog tóm tắt để kết hợp điều này với nhau. Có một bài báo xuất sắc năm 2007, cho thấy các cách tiếp cận Bayes hợp lý với các ví dụ mà Wasserman và Ritov xem xét, bởi Hameling và Toussaint: các công cụ ước tính của Bay Bay cho vấn đề của Robins-Ritov. [ 3 ]


12
Cảm ơn sự đóng góp của bạn, Giáo sư Sims. Bạn có đồng ý với câu trả lời của tôi dưới đây không? PS Bây giờ chúng tôi có giải thưởng Nobel đăng trên SE. Thế còn cái đó? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims Giáo sư Sims Cảm ơn bạn đã đến và thổi bay câu trả lời của tôi với câu trả lời rất có thẩm quyền của bạn!
Michael Chernick

4
Tôi lo lắng bởi thực tế là câu trả lời này có tổng số phiếu cao nhất (tính đến thời điểm hiện tại). Như giáo sư Wasserman lưu ý, câu trả lời của giáo sư Sims là về một câu đố hoàn toàn khác so với câu hỏi mà Zen đã hỏi. Tôi suy luận rằng hầu hết mọi người đều ủng hộ nó mà không cần đọc và hiểu các liên kết mà Sim cung cấp.
Cyan

3
Cyan, bạn có thể tìm thấy những bình luận của Giáo sư Sim liên quan đến câu đố này trong Liên kết [1], WassermanVer.pdf, tr. 10, Mục VII. Phần tái bút 2.
madprob

43

Tôi không thấy nhiều hấp dẫn trong ví dụ này, đặc biệt. như một lời chỉ trích tiềm năng của Bayes và khả năng-wallahs .... Hằng số được biết đến, bằng Nếu là duy nhất " không xác định "trong ảnh, được đưa ra một mẫu , sau đó không có vấn đề thống kê nào về vấn đề này và tôi không đồng ý rằng có tồn tại các ước tính của . Cũng không phải là linh mục trên (trừ khối Dirac về giá trị trên). Đây không phải là một vấn đề thống kê mà là vấn đề số .c

1/Xg(x)dx
cx1,,xncc

Rằng mẫu có thể được sử dụng thông qua ước tính mật độ (thường xuyên) để cung cấp một xấp xỉ bằng số của là một sự tò mò đơn thuần. Không chỉ trích các phương pháp thống kê thay thế: Tôi cũng có thể sử dụng ước tính mật độ Bayes ...x1,,xnc


4
Không thể bắt đầu với một trước thích hợp và kết thúc với một hậu thế không phù hợp nếu khả năng là một mật độ có điều kiện thực sự!
Tây An

Làm thế nào để xác định sự khác biệt giữa một hằng số chưa biết và một tham số? Trong phần Giới thiệu về Xác suất, de Finetti xem xét gợi ra sự không chắc chắn của bạn cho . De Finetti sẽ xem xét dù thế nào khác với ? Nếu không, việc quan sát dữ liệu thay đổi sự không chắc chắn của anh ấy về không? Cũng liên quan đến hằng số / tham số chưa biết. Giả sử Alice chọn một hằng số và các loại trong , . Mặc dù là hằng số chưa biết nhưng Bob sẽ có thể gợi ra trước cho và sử dụng để tìm hiểu vềπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Tại sao trong ví dụ của Wasserman lại khác? c
madprob

3
Tôi không phải là Finetti, vì vậy tôi không thể trả lời cho anh ấy!
Tây An

3
Ví dụ của bạn là thống kê: Tôi nhận được các quan sát có phân phối cơ bản bị chi phối bởi một tham số chưa biết c . Ví dụ của Larry (hoặc Ed's!) Không được thống kê: phân phối mẫu hoàn toàn được biết và không bị điều khiển bởi một tham số chưa biết c . Điều này được minh họa thêm bằng câu trả lời của Zen : bạn chỉ đơn giản là không thể viết mà không kết thúc bằng một nghịch lý, bởi vì chỉ có một giá trị khả dĩ duy nhất của c. f(x1,,xn|c)
Tây An

40

Tôi đồng ý rằng ví dụ này là lạ. Tôi có nghĩa là nó thực sự là một câu đố. (Ví dụ thực sự là do Ed George.)

Nó đặt ra câu hỏi về ý nghĩa của một cái gì đó được "biết đến". Christian nói rằng được biết đến. Nhưng, ít nhất là từ quan điểm xác suất chủ quan hoàn toàn chủ quan, bạn không biết điều đó chỉ vì về nguyên tắc nó có thể được biết đến. (Giả sử bạn không thể thực hiện tích phân số.) Một Bayes chủ quan coi mọi thứ là một biến ngẫu nhiên có phân phối, bao gồm .cc

Ở bất cứ giá nào, tờ giấy

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae và Z. Tan (2003), Một lý thuyết về mô hình thống kê cho sự tích hợp Monte Carlo , J. Royal Statistic. Sóc. B , tập. 65, không 3, 585

(với thảo luận) về cơ bản xử lý cùng một vấn đề.

Ví dụ mà Chris Sims ám chỉ trong câu trả lời của anh ta có bản chất rất khác.


3
Giáo sư Wasserman Cảm ơn bạn đã đến và giải thích ví dụ của bạn và lịch sử của nó. Tôi là một sinh viên tốt nghiệp tại Stanford và chồng chéo với Ed George. Cục Thống kê Stanford rất phi Bayes trong những ngày đó mặc dù với Efron và Stein, chúng tôi đã ở bên rìa của Bayes theo kinh nghiệm. Bộ phận này rất cởi mở và Dennis Lindley đã có một khóa học sau đại học về thống kê Bayes mà tôi đã học vào một mùa hè. Bằng cách nào đó, Ed đã chuyển đổi để trở thành một Bayesian chính thức và thậm chí đã viết một bài báo về việc lấy mẫu Gibbs cho người giả (mặc dù không phải với tiêu đề đó).
Michael Chernick

1
Tôi có và thích đọc những cuốn sách nhỏ của bạn "Tất cả các số liệu thống kê" và "Tất cả các số liệu không liên quan".
Michael Chernick

1
có lẽ không phải như vậy - thật trùng hợp, tôi đã thảo luận về bài báo này của Kong et al. (2003), chủ yếu là tiêu cực về hiệu quả của việc sử dụng các phép biến đổi nhóm trên thước đo thay vì phân phối. Gần đây, Xiao-Li đưa tôi đến một nhận thức tích cực hơn về bài báo ...
Xi'an

1
"Giả sử bạn không thể thực hiện tích phân số." Tôi hiểu rằng sự không chắc chắn hợp lý (mà đây là một ví dụ) đã chống lại phân tích mặc dù đã có những nỗ lực đáng kể.
John Salvatier

Theo cùng một logic mà không biết vì bạn không thể tính toán được, tôi nghĩ bạn cũng phải kết luận rằng hàm là "không xác định" và đặt trước lên không gian hàm mà nó sống. Chắc chắn bạn "biết" , , ... bởi vì bạn có thể đánh giá , nhưng từ góc độ phân tích chức năng, tôi cho rằng bạn không "biết" chức năng là gì trừ khi bạn có thể kiểm tra nó với bất kỳ yếu tố nào của kép không gian, chẳng hạn như chức năng tích hợp. cgg(x1)g(x2)g
Nick Alger

23

Các mô hình thống kê đề xuất có thể được mô tả như sau: Bạn có một tiếng không âm Hàm khả tích , và một biến ngẫu nhiên không âm . Các biến ngẫu nhiên được cho là độc lập có điều kiện và phân phối giống hệt nhau , với điều kiện , với mật độ có điều kiện , cho .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Thật không may, nói chung, đây không phải là một mô tả hợp lệ của một mô hình thống kê. Vấn đề là, theo định nghĩa, phải là mật độ xác suất cho hầu hết mọi giá trị có thể có của , nói chung, rõ ràng là sai. Trên thực tế, điều này đúng với giá trị đơn . Do đó, mô hình chỉ được chỉ định chính xác trong trường hợp tầm thường khi phân phối được tập trung tại giá trị cụ thể này. Tất nhiên, chúng tôi không quan tâm đến trường hợp này. Điều chúng tôi muốn là phân phối bị chi phối bởi thước đo Lebesgue, có pdf .fXiC(c) cc=(g(x)dx)1CCπ

Do đó, xác định , biểu thức được lấy làm hàm của , đối với cố định , không tương ứng với hàm khả năng chính hãng.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Tất cả mọi thứ sau đó thừa hưởng từ vấn đề này. Cụ thể, phần sau được tính toán với Định lý Bayes là không có thật. Thật dễ dàng để thấy rằng: giả sử rằng bạn có một thích hợp trước Lưu ý rằng . Theo tính toán được trình bày trong ví dụ, hậu thế phải là Nhưng nếu điều đó là đúng, thì hậu thế này sẽ luôn không đúng, vì phân kỳ cho mọi cỡ mẫu .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Điều này là không thể: chúng tôi biết rằng nếu chúng tôi bắt đầu với một ưu tiên thích hợp, thì hậu thế của chúng tôi không thể không phù hợp với mọi mẫu có thể (có thể không đúng trong một tập hợp xác suất dự đoán trước null).


Tôi xin lỗi vì không ai bình luận về câu trả lời của bạn. Tôi nghĩ bạn có thể có một điểm nhưng tôi hơi bối rối. Chắc chắn bạn có thể đặt phân phối trước hợp lệ vào các số thực dương. Tại sao bạn không thể xác định mật độ xác suất f cho mọi c> 0 nếu g là không có tích phân hữu hạn trên R ? +
Michael Chernick

1
Chào Michael. Tất nhiên bạn có thể: Gamma, Logn normal, v.v. Tôi không thấy điều này liên quan đến câu trả lời. Có lẽ tôi không hiểu bạn đang nói gì.
Zen

Vâng, tôi đang gặp khó khăn sau cuộc tranh luận của bạn. Bạn nói rằng mật độ có điều kiện cho f chỉ tồn tại cho một c nhưng điều đó không đúng. Tôi không thấy lý do tại sao biểu thức cho khả năng là không hợp lệ và làm thế nào bạn có được bằng chứng bằng cách mâu thuẫn bằng cách giả sử trước một cách hợp lý và bằng cách nào đó cho thấy rằng nó dẫn đến phân phối sau không đúng.
Michael Chernick

Dường như với tôi, mấu chốt của vấn đề là dữ liệu thực sự độc lập với c và không chứa thông tin về c. Tôi nghĩ bạn có thể nói rằng có một chức năng thích liên quan đến c nhưng khả năng này không thể được tối đa hóa như là một chức năng của c. Đối với mỗi lựa chọn của c tôi nghĩ có một f = cg.
Michael Chernick

4
Bất kỳ sự thích hợp nào trước đó không có khoảnh khắc thứ n cũng sẽ hoạt động trong ví dụ của bạn. Tôi đồng ý đây là một cách hữu ích để chỉ ra rằng có điều gì đó không ổn. Suy nghĩ của tôi là nhiều hơn rằng trước đó không dựa trên kiến ​​thức về . Bởi vì bạn biết Chỉ có một trước phù hợp với thông tin này. Đây là hàm delta dirac . Để sử dụng bất kỳ ưu tiên khác là không chính xác về mặt logic. Kiểu như nói khi không độc lập với chog(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
xác suất

11

Ví dụ là một chút kỳ lạ và giả định. Lý do khả năng xảy ra là vì g là một hàm đã biết . Tham số duy nhất chưa biết là c không phải là một phần của khả năng. Ngoài ra vì g được biết nên dữ liệu cung cấp cho bạn không có thông tin về f. Khi nào bạn thấy một điều như vậy trong thực tế? Vì vậy, hậu thế chỉ tỷ lệ thuận với ưu tiên và tất cả thông tin về c đều có trước.

Được rồi nhưng suy nghĩ về nó. Người thường xuyên sử dụng khả năng tối đa và vì vậy người thường xuyên đôi khi cũng dựa vào chức năng khả năng. Vâng, người thường xuyên có thể ước tính các tham số theo những cách khác mà bạn có thể nói. Nhưng vấn đề nấu chín này chỉ có một tham số c và không có thông tin trong dữ liệu về c. Vì g được biết nên không có vấn đề thống kê liên quan đến các tham số chưa biết có thể được lượm lặt trong khoảng thời gian dữ liệu.


Cảm ơn, Michael. Tình hình kỳ lạ, phải không? Giáo sư Wasserman gợi ý cách sau đây để ước tính : lấy bất kỳ công cụ ước lượng nhất quán (thường xuyên) của mật độ (ví dụ như một loại công cụ ước tính hạt nhân). Chọn một điểm tùy ý và lưu ý rằng là một ước lượng phù hợp của . cf^fxc^=f^(x)/g(x)c
Zen

4
@Zen Được rồi, hãy lấy ví dụ đó. Tại sao thu thập bất kỳ dữ liệu nào cả? Chúng tôi biết g. Vì vậy, chúng tôi có thể tích hợp số lượng nó để xác định c đến bất kỳ mức độ chính xác nào mà chúng tôi mong muốn mà không phải ước tính bất cứ điều gì! Giả định rằng chúng ta không thể tính c, điều đó có nghĩa là mặc dù chúng ta biết g là hàm của x nhưng chúng ta không thể tích hợp nó! Tôi nghĩ rằng ví dụ của anh ấy rất yếu và tranh luận cũng vậy và tôi thích những cuốn sách của anh ấy nói chung.
Michael Chernick

11

Có một điều trớ trêu rằng cách tiêu chuẩn để thực hiện tính toán Bayes là sử dụng phân tích thường xuyên các mẫu MCMC. Trong ví dụ này, chúng tôi có thể coi có liên quan chặt chẽ với khả năng cận biên mà chúng tôi muốn tính toán, nhưng chúng tôi sẽ trở thành những người theo chủ nghĩa thuần túy Bayes theo nghĩa là cố gắng thực hiện tính toán theo cách Bayes.c

Nó không phổ biến, nhưng có thể thực hiện tích phân này trong khung Bayes. Điều này liên quan đến việc đặt ưu tiên cho hàm (trong thực tế là quá trình Gaussian) đánh giá hàm tại một số điểm, dựa trên các điểm này và tính toán một tích phân so với sau . Trong tình huống này, khả năng liên quan đến việc đánh giá tại một số điểm, nhưng không được biết đến, do đó khả năng hoàn toàn khác với khả năng được đưa ra ở trên. Phương pháp này được thể hiện trong bài viết này http://mlg.eng.cam.ac.uk/zoubin/ con / RamGha03.pdfg()g()g()g()

Tôi không nghĩ bất cứ điều gì sai với phương pháp Bayes. Khả năng như văn bản đối xử với như được biết ở khắp mọi nơi. Nếu đây là trường hợp thì sẽ không có khía cạnh thống kê cho vấn đề. Nếu được coi là không xác định, ngoại trừ tại một số điểm hữu hạn, phương pháp Bayesian hoạt động tốt.g()g()


Ngạc nhiên vì điều này không có nhiều upvote. Điều này đi vào trọng tâm của vấn đề, đó là sự khẳng định mơ hồ rằng bạn "biết" chức năng là gì chỉ vì bạn có thể đánh giá nó bất cứ lúc nào. Tôi nghĩ một tiêu chí phù hợp hơn để nói rằng bạn "biết" một chức năng là khả năng đánh giá bất kỳ chức năng tuyến tính liên tục nào trên đó.
Nick Alger

@Nick Alger: Mọi người đã mất hứng thú. Tôi không ủng hộ nó bởi vì tôi không tin đó là Bayes - do xi trong tập D (xi, f (xi)) đề cập đến xi được quan sát trong nghiên cứu hoặc được tạo ngẫu nhiên bởi chúng? Nếu là lần đầu tiên, đó là Bayes nhưng rất dễ bị đánh bại với MC đơn giản với vài giây thời gian tính toán (vì vậy nó không hoạt động tốt) hoặc không phải Bayes (không dựa trên dữ liệu).
phaneron

-2

Chúng tôi có thể mở rộng định nghĩa về các điều đã biết có thể (tương tự như việc mở rộng dữ liệu để cho phép thiếu dữ liệu cho mốc dữ liệu được quan sát nhưng bị mất) để bao gồm NULL (không tạo ra dữ liệu).

Giả sử rằng bạn có một thích hợp trước Bây giờ hãy xác định mô hình dữ liệu cho x

π(c)=1c2I[1,)(c).

Nếuc=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a cho bất kỳ}

khácfaXaC(xac)=0

Vì vậy, hậu thế sẽ là 0 hoặc 1 (thích hợp) nhưng khả năng từ mô hình dữ liệu trên là không có sẵn (vì bạn không thể xác định điều kiện bắt buộc trong mô hình dữ liệu.)

Vậy bạn làm ABC.

Vẽ một cv khác từ trước.

Bây giờ gần đúng bằng một số tích hợp số và giữ cho c c nếu điều đó gần đúng - đó là xấp xỉ - epsilon.(g(x)dx)1

Các c c được giữ lại sẽ là một xấp xỉ của hậu thế thực sự.

(Độ chính xác của phép tính gần đúng sẽ phụ thuộc vào epsilon và tính đầy đủ của điều hòa đối với phép tính gần đúng đó.)


-5

Đợi đã, cái gì? Bạn có vì vậy, nó phụ thuộc vào các giá trị của . Chỉ vì bạn che giấu sự phụ thuộc trong " " không có nghĩa là bạn có thể bỏ qua nó?{ X i } α

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
Kính gửi nhầm lẫn: phương trình trên là sai. Mẫu số ở đâu (khả năng cận biên của )? Chia cho và bạn sẽ thấy sẽ hủy bỏ. "Hậu thế" trong cuốn sách là sai vì những lý do khác. Xin vui lòng, kiểm tra câu trả lời của tôi. f ( x c )xn i = 1 g ( x i )f(xc)π(c)dci=1ng(xi)
Zen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.