Tại sao tôi phải là Bayes khi mô hình của tôi sai?


68

Chỉnh sửa: Tôi đã thêm một ví dụ đơn giản: suy luận về giá trị trung bình của XTôi . Tôi cũng đã làm rõ một chút tại sao các khoảng tin cậy không khớp với các khoảng tin cậy là xấu.

Tôi, một người Bayes khá sùng đạo, đang ở giữa một cuộc khủng hoảng về đức tin.

Vấn đề của tôi là như sau. Giả sử rằng tôi muốn phân tích một số dữ liệu IID . Những gì tôi sẽ làm là:XTôi

  • đầu tiên, đề xuất một mô hình có điều kiện:

    p(X|θ)
  • Sau đó, chọn ưu tiên trên : p ( θ )θ

    p(θ)
  • Cuối cùng, áp dụng quy tắc của Bayes, tính toán sau: (hoặc một số phép tính gần đúng với nó nếu không thể tính toán được) và trả lời tất cả các câu hỏi tôi có vềθp(θ|X1Giáo dụcXviết sai rồi)θ

Đây là một cách tiếp cận hợp lý: nếu mô hình thực sự của dữ liệu thực sự là "bên trong" điều kiện của tôi (nó tương ứng với một số giá trị ), thì tôi có thể gọi lý thuyết quyết định thống kê để nói rằng phương pháp của tôi được chấp nhận (xem Robert "Sự lựa chọn Bayes" để biết chi tiết; "Tất cả các số liệu thống kê" cũng cung cấp một tài khoản rõ ràng trong chương liên quan).θ 0XTôiθ0

Tuy nhiên, như mọi người đều biết, giả sử rằng mô hình của tôi là chính xác thì khá kiêu ngạo: tại sao thiên nhiên phải nằm gọn trong hộp của các mô hình mà tôi đã xem xét? Thực tế hơn nhiều khi giả định rằng mô hình thực của dữ liệu khác với cho tất cả các giá trị của . Đây thường được gọi là mô hình "sai chính tả".p ( X | θ ) θptrbạne(X)p(X|θ)θ

Vấn đề của tôi là, trong trường hợp sai chính tả thực tế hơn này, tôi không có bất kỳ lý lẽ tốt nào để trở thành Bayesian (tức là: tính toán phân phối sau) so với chỉ đơn giản là tính toán Công cụ ước tính khả năng tối đa (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

Thật vậy, theo Kleijn, vd Vaart (2012) , trong trường hợp sai chính tả, phân phối sau:

  • hội tụ dưới dạng với phân phối dirac tập trung tại mộtq M Lnθ^ML

  • không có phương sai chính xác (trừ khi hai giá trị chỉ xảy ra giống nhau) để đảm bảo rằng khoảng tin cậy của khoảng tin cậy khớp sau cho . (Lưu ý rằng, mặc dù khoảng tin cậy rõ ràng là điều mà người Bayes không quan tâm quá mức, nhưng về mặt chất lượng này có nghĩa là phân phối sau về bản chất là sai, vì nó ngụ ý rằng khoảng tin cậy của nó không có phạm vi bảo hiểm chính xác)θ

Do đó, chúng tôi đang trả phí bảo hiểm tính toán (suy luận Bayes, nói chung, đắt hơn MLE) vì không có thuộc tính bổ sung

Vì vậy, cuối cùng, câu hỏi của tôi : có bất kỳ đối số nào, dù là lý thuyết hay thực nghiệm, cho việc sử dụng suy luận Bayes so với phương án MLE đơn giản hơn khi mô hình bị sai?

(Vì tôi biết rằng các câu hỏi của tôi thường không rõ ràng, vui lòng cho tôi biết nếu bạn không hiểu điều gì đó: Tôi sẽ cố gắng viết lại nó)

Chỉnh sửa: hãy xem xét một ví dụ đơn giản: suy ra giá trị trung bình của theo mô hình Gaussian (với phương sai đã biết để đơn giản hóa hơn nữa). Chúng tôi xem xét một Gaussian trước: chúng tôi biểu thị giá trị trung bình trước, phương sai nghịch đảo của trước. Đặt là giá trị trung bình theo kinh nghiệm của . Cuối cùng, lưu ý: . σ L 0 β 0 ˉ X X i L = ( β 0 μ 0 + nXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

Phân phối sau là:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

Trong trường hợp được chỉ định chính xác (khi thực sự có phân phối Gaussian), hậu thế này có các thuộc tính đẹp sau đâyXi

  • Nếu được tạo từ một mô hình phân cấp trong đó giá trị trung bình được chia sẻ của chúng được chọn từ phân phối trước, thì khoảng tin cậy sau có độ bao phủ chính xác. Có điều kiện trên dữ liệu, xác suất ở bất kỳ khoảng nào đều bằng với xác suất mà hậu thế quy định cho khoảng nàyXiθ

  • Ngay cả khi điều trước không đúng, các khoảng tin cậy có phạm vi bảo hiểm chính xác trong giới hạn trong đó ảnh hưởng trước đó đối với hậu thế sẽ biến mấtn

  • phía sau có các đặc tính thường xuyên tốt: bất kỳ công cụ ước lượng Bayes nào được xây dựng từ phía sau đều được đảm bảo là có thể chấp nhận được, trung bình sau là một công cụ ước tính hiệu quả (theo nghĩa Cramer-Rao) của các khoảng tin cậy, không đáng tin cậy, là không có triệu chứng, khoảng tin cậy.

Trong trường hợp sai chính tả, hầu hết các tính chất này không được đảm bảo bởi lý thuyết. Để khắc phục các ý tưởng, hãy giả sử rằng mô hình thực sự cho là chúng thay vào đó là các bản phân phối của Sinh viên. Thuộc tính duy nhất mà chúng tôi có thể đảm bảo (Kleijn et al) là phân phối sau tập trung vào giá trị trung bình thực của trong giới hạn . Nói chung, tất cả các thuộc tính bảo hiểm sẽ biến mất. Tồi tệ hơn, nói chung, chúng ta có thể đảm bảo rằng, trong giới hạn đó, các thuộc tính bảo hiểm sai về cơ bản: phân phối sau sẽ quy định xác suất sai cho các vùng không gian khác nhau.X i n XiXin


2
Vâng, Bayesian tiếp cận thường xuyên. Đó là một cái gì đó, để giúp chống lại quá mức - cho dù mô hình của bạn có bị sai hay không. Tất nhiên, điều đó chỉ dẫn đến câu hỏi liên quan về các lập luận cho suy luận Bayes chống lại các phương pháp cổ điển thông thường (lasso, hồi quy sườn, lưới đàn hồi, v.v.).
S. Kolassa - Tái lập Monica

3
Bạn có thể quan tâm đến công việc này và người thân của nó.
Dougal

7
Khi mô hình của bạn bị sai chính tả về việc sử dụng hàm khả năng không chính xác, thì cả hai ước tính MLE và Bayes sẽ sai ...
Tim

5
@Tim: suy luận MLE và Bayes không phải là vô nghĩa trong trường hợp sai chính tả: cả hai đều cố gắng khôi phục giá trị tham số cung cấp tài khoản tốt nhất cho dữ liệu trong các mô hình có điều kiện. Chính xác hơn, là argmin của trong đó KL là phân kỳ Kullback Leibler. Theo các giả định nhẹ, cả suy luận của MLE và Bayes đều xác định chính xác khi được cung cấp đủ lượng dữ liệu ~ θ 0KL[p(X),p(X|θ)] ~ θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene

3
@amoeba Tôi tưởng tượng vẻ ngoài cứng rắn của Bayesian và hành động như đồng chí Che
Aksakal

Câu trả lời:


31

Tôi xem xét phương pháp Bayes khi tập dữ liệu của tôi không phải là tất cả những gì được biết về chủ đề này và muốn bằng cách nào đó kết hợp kiến ​​thức ngoại sinh đó vào dự báo của tôi.

Chẳng hạn, khách hàng của tôi muốn dự báo về các khoản vay mặc định trong danh mục đầu tư của họ. Họ có 100 khoản vay với một vài năm dữ liệu lịch sử hàng quý. Có một vài sự cố xảy ra (trả chậm) và chỉ một vài mặc định. Nếu tôi cố gắng ước tính mô hình sống sót trên tập dữ liệu này, nó sẽ có rất ít dữ liệu để ước tính và quá nhiều sự không chắc chắn để dự báo.

Mặt khác, các nhà quản lý danh mục đầu tư là những người có kinh nghiệm, một số người trong số họ có thể đã dành hàng thập kỷ để quản lý mối quan hệ với người vay. Họ có những ý tưởng xung quanh mức giá mặc định sẽ như thế nào. Vì vậy, họ có khả năng đến với các linh mục hợp lý. Lưu ý, không phải các linh mục có thuộc tính toán học tốt và trông hấp dẫn về mặt trí tuệ đối với tôi . Tôi sẽ trò chuyện với họ và rút kinh nghiệm và kiến ​​thức của họ dưới dạng những linh mục đó.

Bây giờ, khung Bayes sẽ cung cấp cho tôi cơ học để kết hôn với kiến ​​thức ngoại sinh dưới dạng linh mục với dữ liệu, và có được hậu thế vượt trội hơn cả phán đoán định tính thuần túy và dự báo theo định hướng dữ liệu thuần túy, theo ý kiến ​​của tôi. Đây không phải là một triết lý và tôi không phải là người Bayes. Tôi chỉ đang sử dụng các công cụ Bayes để kết hợp nhất quán kiến ​​thức chuyên môn vào việc ước tính dựa trên dữ liệu.


3
Một điểm rất hay. Suy luận Bayes đưa ra một khuôn khổ để giải quyết chính xác một nhiệm vụ giống như nhiệm vụ bạn đã trình bày. Cảm ơn bạn.
Guillaume Dehaene

5
Đây là một lập luận chung cho mô hình Bayes, nhưng làm thế nào nó liên quan đến trường hợp cụ thể của mô hình sai chính tả? Tôi không thấy một kết nối.
Richard Hardy

4
Vâng, nó liên quan đến câu hỏi của tôi: ngay cả trong trường hợp sai chính tả, suy luận Bayes xử lý tốt hơn (tức là: theo cách thức nguyên tắc hơn), thông qua các phương pháp trước, so với các phương pháp MLE, sẽ phải làm việc với các bộ chính quy. Đó là một dạng tranh luận theo kinh nghiệm về lý do tại sao suy luận Bayes tốt hơn MLE một chút.
Guillaume Dehaene

2
@Aksakal, cho dù các mô hình bị sai chính tả là bên cạnh điểm. Điều tôi quan tâm là bạn không trả lời câu hỏi. (Nếu OP không đồng ý, thì tôi nghĩ rằng anh ta đã làm một công việc kém trong việc đưa ra câu hỏi.) Nhưng tôi thấy đã có một chỉnh sửa gần đây, vì vậy có lẽ bây giờ câu hỏi đã được thay đổi.
Richard Hardy

4
@ Reichardard . Trong trường hợp này tại sao phải bận tâm về Bayesian để bắt đầu, tại sao không chỉ để thẳng MLE, ông hỏi. Ví dụ của tôi quyết định không phải là triết học, nhưng thực tế: bạn đối phó thường không chỉ với những mẫu hữu hạn, mà là những mẫu nhỏ. Vì vậy, dữ liệu của bạn sẽ không kéo hậu thế quá xa so với trước, đại diện cho kiến ​​thức ngoại sinh.
Aksakal

25

Một câu hỏi rất thú vị ... có thể không có câu trả lời (nhưng điều đó không làm cho nó bớt thú vị hơn!)

Một vài suy nghĩ (và nhiều liên kết đến các mục blog của tôi!) Về meme đó rằng tất cả các mô hình đều sai :

  1. Trong khi mô hình giả thực sự là hầu như luôn và irremediably sai , nó vẫn làm cho tinh thần để hành động một cách hiệu quả hay chặt chẽ liên quan đến mô hình này nếu điều này là tốt nhất người ta có thể làm. Suy luận kết quả tạo ra một đánh giá về mô hình chính thức là "gần nhất" với mô hình tạo dữ liệu thực tế (nếu có);
  2. Có những cách tiếp cận Bayes có thể làm mà không cần mô hình , một ví dụ gần đây nhất là các bài báo của Bissiri et al. (với ý kiến ​​của tôi ) và bởi Watson và Holmes (mà tôi đã thảo luận với Judith Rousseau );
  3. Theo cách kết nối, tồn tại cả một nhánh thống kê Bayes liên quan đến suy luận mở M ;
  4. Và một hướng khác mà tôi rất thích là cách tiếp cận SafeBayes của Peter Grünwald , người đã tính đến lỗi chính tả mô hình để thay thế khả năng bằng một phiên bản giảm cấp được thể hiện như một sức mạnh của khả năng ban đầu.
  5. Bài đọc gần đây của Gelman và Hennig đề cập đến vấn đề này, mặc dù theo cách thức bao vây (và tôi đã thêm một số bình luận trên blog của mình ). Tôi đoán bạn có thể thu thập tài liệu cho một cuộc thảo luận từ các mục về câu hỏi của bạn.
  6. Theo một nghĩa nào đó, Bayes nên ít quan tâm nhất trong số các nhà thống kê và người điều hành về khía cạnh này vì mô hình lấy mẫu sẽ được coi là một trong một số giả định trước và kết quả là có điều kiện hoặc liên quan đến tất cả các giả định trước đó.

2
Thật tuyệt khi có ý kiến ​​của bạn về điều này. Điểm đầu tiên của bạn có ý nghĩa trực quan: nếu mô hình không quá sai, thì kết quả suy luận của chúng tôi sẽ ổn. Tuy nhiên, có ai đã từng chứng minh bất kỳ kết quả nào như thế (hoặc khám phá câu hỏi theo kinh nghiệm) chưa? Điểm cuối cùng của bạn (mà tôi có thể đã hiểu nhầm) khiến tôi bối rối: mô hình lấy mẫu là một lựa chọn quan trọng. Thực tế là chúng tôi cũng đưa ra các lựa chọn không có nghĩa là các lỗi trong lựa chọn mô hình lấy mẫu không thể làm mờ toàn bộ mô hình. Cảm ơn bạn đã tham khảo và blog tuyệt vời.
Guillaume Dehaene

Đối với điểm 1., tại sao mô hình Bayes không tính trung bình? Tại sao chỉ sử dụng mô hình 'tốt nhất'?
innisfree

@innisfree: tất cả phụ thuộc vào những gì bạn dự định làm với kết quả, tôi không có tôn giáo nào về mô hình trung bình so với mô hình tốt nhất.
Tây An

1
Bạn dường như đang đề xuất rằng có một khía cạnh lý thuyết quyết định của tính không chắc chắn của mô hình trung bình so với chỉ chọn mô hình 'tốt nhất'. Chắc chắn nó luôn luôn có lợi, tức là giúp đưa ra quyết định tốt hơn, để kết hợp chặt chẽ tất cả các yếu tố không chắc chắn, bao gồm cả sự không chắc chắn của mô hình.
innisfree

2
Sự phản đối chính của tôi đối với phi thông số là thực tế: chúng đắt hơn về mặt tính toán bởi một số đơn đặt hàng cường độ so với các lựa chọn đơn giản hơn. Hơn nữa, không phải chúng ta cũng gặp rắc rối với những người không tham số, bởi vì hai phân phối trước đó gần như không thể có hỗ trợ chung? Điều đó có nghĩa là trước đó sẽ có ảnh hưởng nặng nề và các nhà thống kê Bayes sẽ không thể đồng ý khi bắt đầu từ các linh mục khác nhau.
Guillaume Dehaene

12

Chỉnh sửa: Đã thêm tài liệu tham khảo vào bài viết này trong phần thân, theo yêu cầu của OP.


Tôi đang đưa ra một câu trả lời như một Bayesian thực nghiệm ngây thơ ở đây.

Đầu tiên, phân phối sau cho phép bạn thực hiện các tính toán mà bạn đơn giản không thể thực hiện với MLE đơn giản. Trường hợp đơn giản nhất là ngày hôm sau là ngày mai . Suy luận Bayes đương nhiên cho phép cập nhật tuần tự, hoặc nhiều hơn trong sự kết hợp trực tuyến hoặc trì hoãn của nhiều nguồn thông tin (kết hợp trước đó chỉ là một ví dụ trong sách giáo khoa của sự kết hợp đó). Lý thuyết quyết định Bayes với chức năng mất không cần thiết là một ví dụ khác. Tôi không biết phải làm gì khác.

Thứ hai, với câu trả lời này, tôi sẽ cố gắng và lập luận rằng câu thần chú rằng lượng hóa độ không chắc chắn nói chung tốt hơn không có sự không chắc chắn thực sự là một câu hỏi thực nghiệm, vì các định lý (như bạn đã đề cập, và theo như tôi biết) không bảo đảm.

Tối ưu hóa như một mô hình đồ chơi của nỗ lực khoa học

Một miền mà tôi cảm thấy hoàn toàn nắm bắt được sự phức tạp của vấn đề là rất thiết thực, thẳng thắn nhất, tối ưu hóa của một hộp đen chức năng . Chúng tôi cho rằng chúng tôi liên tục có thể truy vấn một điểm x X và nhận được một sự quan sát có thể ồn ào y = f ( x ) + ε , với ε ~ N ( 0 , σ 2 ) . Mục tiêu của chúng tôi là đến càng gần càng tốt với x = arg min xf:XRDRxXy=f(x)+εεN(0,σ2) với số lượng đánh giá hàm tối thiểu.x=argminxf(x)

Một cách đặc biệt hiệu quả để tiếp tục, như bạn có thể mong đợi, là xây dựng một mô hình tiên đoán về những gì sẽ xảy ra nếu tôi truy vấn bất kỳ , và sử dụng thông tin này để quyết định làm gì tiếp theo (hoặc cục bộ hoặc toàn cầu). Xem Rios và Sahinidis (2013) để xem xét các phương pháp tối ưu hóa toàn cầu không có nguồn gốc. Khi mô hình đủ phức tạp, điều này được gọi là mô hình meta hoặc hàm thay thế hoặc phương pháp tiếp cận bề mặt đáp ứng . Điều quan trọng, mô hình có thể là ước tính điểm của f (ví dụ, sự phù hợp của chức năng mạng cơ sở xuyên tâm đối với các quan sát của chúng tôi), hoặc chúng ta có thể là Bayes và bằng cách nào đó có được phân phối sau đầy đủxXf (ví dụ, thông qua một quá trình Gaussian).f

Tối ưu hóa Bayes sử dụng hậu tố trên (đặc biệt là trung bình và phương sai sau có điều kiện chung tại bất kỳ thời điểm nào) để hướng dẫn tìm kiếm tối ưu (toàn cầu) thông qua một số heuristic nguyên tắc. Sự lựa chọn cổ điển là tối đa hóa sự cải thiện dự kiến so với điểm tốt nhất hiện tại, nhưng thậm chí còn có các phương pháp dễ hiểu hơn, như giảm thiểu entropy dự kiến ​​trên vị trí tối thiểu (xem thêm tại đây ).f

Kết quả thực nghiệm ở đây là việc có quyền truy cập vào một hậu thế, ngay cả khi bị sai một phần, thường tạo ra kết quả tốt hơn so với các phương pháp khác. (Có những cảnh báo và tình huống trong đó tối ưu hóa Bayes không tốt hơn tìm kiếm ngẫu nhiên, chẳng hạn như ở kích thước cao.) Trong bài viết này , chúng tôi thực hiện đánh giá thực nghiệm về phương pháp BO mới so với các thuật toán tối ưu hóa khác, kiểm tra xem sử dụng BO có thuận tiện không trong thực tế, với kết quả đầy hứa hẹn.

Vì bạn đã hỏi - điều này có chi phí tính toán cao hơn nhiều so với các phương pháp phi Bayes khác, và bạn đã tự hỏi tại sao chúng ta nên là Bayes. Giả định ở đây là chi phí liên quan đến việc đánh giá thực (ví dụ, trong một kịch bản thực, một thí nghiệm kỹ thuật phức tạp hoặc máy học) lớn hơn nhiều so với chi phí tính toán cho phân tích Bayes, do đó Bayesian phải trả giá .f

Chúng ta có thể học được gì từ ví dụ này?

Đầu tiên, tại sao tối ưu hóa Bayes lại hoạt động? Tôi đoán rằng mô hình là sai, nhưng không phải sai, và như thường lệ sai quấy phụ thuộc vào những gì mô hình của bạn là dành cho. Ví dụ, hình dạng chính xác của không liên quan để tối ưu hóa, vì chúng ta có thể tối ưu hóa bất kỳ chuyển đổi đơn điệu nào của chúng. Tôi đoán bản chất là đầy bất biến như vậy. Vì vậy, tìm kiếm chúng tôi đang thực hiện có thể không tối ưu (nghĩa là chúng tôi đang bỏ đi thông tin tốt), nhưng vẫn tốt hơn so với không có thông tin không chắc chắn.f

Thứ hai, ví dụ của chúng tôi nhấn mạnh rằng có thể là sự hữu ích của việc Bayes hay không phụ thuộc vào bối cảnh , ví dụ như chi phí tương đối và lượng tài nguyên có sẵn (tính toán). (Tất nhiên nếu bạn là một người Bayes khó tính, bạn tin rằng mọi tính toán đều là suy luận Bayes theo một số phép tính trước và / hoặc gần đúng.)

Cuối cùng, câu hỏi lớn là - tại sao các mô hình mà chúng ta sử dụng không quá tệ , theo nghĩa là các hậu thế vẫn hữu ích và không phải là rác thống kê? Nếu chúng ta sử dụng định lý Không ăn trưa miễn phí, rõ ràng chúng ta không thể nói nhiều, nhưng may mắn là chúng ta không sống trong một thế giới của các chức năng hoàn toàn ngẫu nhiên (hoặc được chọn bất lợi ).

Nói chung, vì bạn đặt thẻ "triết học" ... Tôi đoán rằng chúng ta đang đi vào cõi của cảm ứng, hoặc hiệu quả vô lý của toán học trong các ngành khoa học thống kê (cụ thể là về trực giác toán học & khả năng xác định mô hình của chúng ta hoạt động trong thực tế) - theo nghĩa là từ quan điểm hoàn toàn tiên nghiệm, không có lý do nào để dự đoán của chúng ta tốt hoặc có bất kỳ sự đảm bảo nào (và chắc chắn rằng bạn có thể xây dựng các phản biện toán học trong đó mọi thứ trở nên tồi tệ), nhưng chúng biến ra ngoài để làm việc tốt trong thực tế.


2
Câu trả lời tuyệt vời. Cảm ơn bạn rất nhiều vì sự đóng góp của bạn. Có bất kỳ đánh giá / so sánh công bằng về tối ưu hóa Bayes so với các kỹ thuật tối ưu hóa thông thường làm nổi bật rằng phiên bản Bayes tốt hơn về mặt thực nghiệm như bạn tuyên bố? (Tôi khá ổn khi nhận lời của bạn, nhưng một tài liệu tham khảo sẽ hữu ích)
Guillaume Dehaene

1
Cảm ơn! Tôi nghĩ rằng các cuộc gọi số xác suất có chứa một số lập luận lý thuyết và thực nghiệm. Tôi không biết một điểm chuẩn thực sự so sánh các phương pháp BO với các phương pháp tiêu chuẩn, nhưng [ cảnh báo kích hoạt: phích cắm không biết xấu hổ ] Tôi hiện đang nghiên cứu một cái gì đó dọc theo các dòng này trong lĩnh vực khoa học thần kinh tính toán; Tôi dự định sẽ đưa một số kết quả lên arXiv, hy vọng trong vài tuần tới.
lacerbi

Thật vậy, ít nhất hình 2 của họ có sự so sánh rõ ràng. Bạn có thể vui lòng thêm bạn làm việc vào câu hỏi chính của bạn sau khi nó ra không? Tôi cảm thấy như nó sẽ là một bổ sung có giá trị.
Guillaume Dehaene

Có - đó là phương pháp của họ cho phương pháp Bayesian thích nghi, đó là một ý tưởng khá tuyệt vời (trong thực tế, hiệu quả của nó phụ thuộc vào việc xấp xỉ GP có hoạt động hay không, thường gần tương đương với việc bạn có tham số hóa hợp lý cho vấn đề của mình). Tôi sẽ thêm liên kết vào câu trả lời khi công việc của tôi có sẵn, cảm ơn.
lacerbi

1
@IMA: Xin lỗi, tôi không nghĩ rằng tôi 100% nhận được điểm của bạn. Tôi đã lấy tối ưu hóa hộp đen làm mô hình đồ chơi của nỗ lực khoa học. Tôi tin rằng bạn có thể ánh xạ nhiều bước và vấn đề của "khoa học" sang miền đơn giản hơn (nhưng vẫn cực kỳ phức tạp) này. Không cần giả định "nhiễu Gaussian" cho lập luận của tôi, nó chỉ đơn giản. Các vấn đề tối ưu hóa trong thế giới thực (ví dụ, trong kỹ thuật) có thể bị hỏng do nhiễu không phải Gaussian và đó là điều cần được xử lý. Và các quá trình Gaussian không cần nhiễu quan sát Gaussian (mặc dù nó làm cho suy luận dễ dàng).
lacerbi

10

Tôi chỉ thấy điều này ngày hôm nay nhưng tôi vẫn nghĩ rằng tôi nên nói rằng tôi là một chuyên gia và có ít nhất hai câu trả lời (số 3 và 20 (cảm ơn vì đã đề cập đến công việc của tôi Xi'an!)) Đề cập đến công việc của tôi SafeBayes - đặc biệt là G. và van Ommen, "Sự không nhất quán của suy luận Bayes cho các mô hình tuyến tính bị sai, và một đề xuất sửa chữa nó" (2014). Và tôi cũng muốn thêm một cái gì đó để bình luận 2:

2 nói: (một lợi thế của Bayes theo lỗi chính tả là ...) "Chà, Bayesian tiếp cận thường xuyên. Đó là một cái gì đó, để giúp chống lại quá mức - liệu mô hình của bạn có bị sai hay không. Tất nhiên, điều đó chỉ dẫn đến câu hỏi liên quan về lập luận cho suy luận Bayes chống lại các phương pháp cổ điển thường xuyên (lasso, v.v.) "

Điều này là đúng, nhưng điều quan trọng là phải thêm rằng các cách tiếp cận Bayes có thể không đủ thường xuyên nếu mô hình sai. Đây là điểm chính của công việc với Van Ommen - chúng ta thấy ở đó trang phục Bayes tiêu chuẩn khá khủng khiếp trong một số bối cảnh hồi quy với các mô hình sai nhưng rất hữu ích. Không tệ như MLE, nhưng vẫn còn quá nhiều để có ích. Có cả một chuỗi công việc trong học máy lý thuyết (thường xuyên và lý thuyết trò chơi) trong đó họ sử dụng các phương pháp tương tự Bayes, nhưng với 'tỷ lệ học tập' nhỏ hơn nhiều - làm cho việc ưu tiên nhiều hơn và dữ liệu ít quan trọng hơn, do đó thường xuyên hóa hơn. Các phương pháp này được thiết kế để hoạt động tốt trong các tình huống xấu nhất (sai chính tả và thậm chí tệ hơn, dữ liệu đối nghịch) - phương pháp SafeBayes được thiết kế để 'tìm hiểu tốc độ học tối ưu' từ chính dữ liệu - và tốc độ tối ưu hóa tối ưu này, tức là mức tối ưu chính quy

Liên quan, có một định lý dân gian (được đề cập bởi một số người ở trên) nói rằng Bayes sẽ tập trung sau vào phân phối gần nhất trong phân kỳ KL với 'sự thật'. Nhưng điều này chỉ giữ trong các điều kiện rất nghiêm ngặt - NHIỀU nghiêm ngặt hơn các điều kiện cần để hội tụ trong trường hợp được chỉ định rõ. Nếu bạn đang xử lý các mô hình tham số và dữ liệu chiều thấp tiêu chuẩn theo một số phân phối (không phải trong mô hình) thì hậu thế sẽ thực sự tập trung xung quanh điểm trong mô hình gần nhất với sự thật trong phân kỳ KL. Bây giờ nếu bạn đang xử lý các mô hình không tham số lớn và mô hình là chính xác, thì (về cơ bản), hậu thế của bạn sẽ vẫn tập trung xung quanh phân phối thực sự được cung cấp đủ dữ liệu, miễn là trước đó của bạn đặt đủ khối lượng trong các quả bóng KL nhỏ xung quanh phân phối thực sự. Đây làđiều kiện yếu cần thiết cho sự hội tụ trong trường hợp không tham số nếu mô hình đúng.

Nhưng nếu mô hình của bạn không theo tỷ lệ nhưng không chính xác, thì hậu thế có thể đơn giản là không tập trung xung quanh điểm KL gần nhất, ngay cả khi trước đó bạn đặt khối lượng gần 1 (!) Ở đó - hậu thế của bạn có thể vẫn bị nhầm lẫn, tập trung vào các phân phối khác nhau như thời gian tiến hành nhưng không bao giờ xung quanh một trong những tốt nhất. Trong các bài báo của tôi, tôi có một vài ví dụ về điều này xảy ra. Các giấy tờ thể hiện sự hội tụ theo lỗi chính tả (ví dụ Kleijn và van der Vaart) đòi hỏi rất nhiều điều kiện bổ sung, ví dụ mô hình phải lồi hoặc trước đó phải tuân theo các thuộc tính (phức tạp) nhất định. Đây là những gì tôi muốn nói bởi các điều kiện 'nghiêm ngặt'.

Trong thực tế, chúng ta thường xử lý các mô hình tham số nhưng có chiều rất cao (nghĩ hồi quy sườn núi Bayes, v.v.). Sau đó, nếu mô hình sai, cuối cùng , hậu thế của bạn sẽ tập trung vào phân phối KL tốt nhất trong mô hình nhưng một phiên bản nhỏ của sự không nhất quán không theo quy tắc vẫn giữ: nó có thể nhận các đơn đặt hàng dữ liệu lớn hơn trước khi hội tụ xảy ra - một lần nữa, bài báo của tôi với Van Ommen đưa ra ví dụ.

Cách tiếp cận SafeBayes sửa đổi các vịnh tiêu chuẩn theo cách đảm bảo sự hội tụ trong các mô hình không tham số theo (về cơ bản) các điều kiện giống như trong trường hợp được chỉ định rõ, nghĩa là đủ khối lượng trước phân phối tối ưu KL trong mô hình (G. và Mehta, 2014 ).

Sau đó, có câu hỏi liệu Bayes thậm chí có biện minh dưới sự sai sót. IMHO (và cũng được đề cập bởi một số người ở trên), các biện minh tiêu chuẩn của Bayes (sự chấp nhận, Savage, De Finetti, Cox, v.v.) không được giữ ở đây (vì nếu bạn nhận ra mô hình của mình bị sai, thì xác suất của bạn không thể hiện niềm tin thực sự của bạn !). TUY NHIÊN nhiều phương pháp Bayes cũng có thể được hiểu là 'phương pháp mô tả độ dài tối thiểu (MDL)' - MDL là phương pháp lý thuyết thông tin tương đương với 'học từ dữ liệu' với 'cố gắng nén dữ liệu càng nhiều càng tốt'. Giải thích nén dữ liệu này của (một số) phương pháp Bayes vẫn còn hiệu lực theo lỗi chính tả. Vì vậy, vẫn còn một sốgiải thích cơ bản giữ sai chính tả - tuy nhiên, có vấn đề, như bài báo của tôi với van Ommen (và vấn đề khoảng tin cậy / bộ tin cậy được đề cập trong bài viết gốc) hiển thị.

Và sau đó là một nhận xét cuối cùng về bài viết gốc: bạn đề cập đến sự biện minh 'sự chấp nhận' của Bayes (quay trở lại lớp hoàn chỉnh của Wald vào những năm 1940/50). Việc đây có thực sự là một lời biện minh của Bayes hay không thực sự phụ thuộc rất nhiều vào định nghĩa chính xác của một người về 'suy luận Bayes' (khác với nhà nghiên cứu đến nhà nghiên cứu ...). Lý do là những kết quả có thể chấp nhận này cho phép khả năng người ta sử dụng mức độ ưu tiên phụ thuộc vào các khía cạnh của vấn đề, chẳng hạn như kích thước mẫu và chức năng mất lãi, v.v. Hầu hết người Bayes thực sự sẽ không muốn thay đổi trước nếu số lượng dữ liệu họ phải xử lý các thay đổi hoặc nếu chức năng mất lãi đột ngột bị thay đổi. Ví dụ, với các hàm mất lồi nghiêm ngặt, công cụ ước tính minimax cũng được chấp nhận - mặc dù thường không được coi là Bayes! Lý do là đối với mỗi kích thước mẫu cố định, chúng tương đương với Bayes với một ưu tiên cụ thể, nhưng trước đó là khác nhau đối với từng kích thước mẫu.

Hy vọng điều này là hữu ích!


2
Chào mừng bạn đến với CrossValidated và cảm ơn vì đã trả lời câu hỏi này. Một lưu ý nhỏ - bạn không thể dựa vào các câu trả lời được sắp xếp theo thứ tự như bạn thấy chúng; những người khác nhau có thể sắp xếp theo thứ tự khác nhau (có một sự lựa chọn các tiêu chí sắp xếp khác nhau ở đầu câu trả lời được đặt cao nhất) và hai trong số các tiêu chí đó thay đổi theo thời gian. Đó là nếu bạn gọi họ là "số 3 và 20" thì mọi người sẽ không biết bạn muốn trả lời câu trả lời nào. [Tôi chỉ có thể tìm thấy mười câu trả lời là tốt.]
Glen_b

1
Cảm ơn bạn đã trả lời tuyệt vời Peter. Tôi bối rối về nhận xét của bạn rằng suy luận Bayes trong trường hợp sai chính tả đòi hỏi những giả định rất mạnh mẽ. Những giả định mà bạn đề cập rõ ràng? Bạn đang nói về điều kiện mà hậu thế cần phải hội tụ để phân phối dirac trên giá trị tham số tốt nhất? hoặc bạn đang nói về các điều kiện kỹ thuật nhiều hơn về khả năng đảm bảo tính bình thường tiệm cận?
Guillaume Dehaene

Ok, cảm ơn Glen B (người điều hành) - từ giờ tôi sẽ ghi nhớ điều này.
Peter Grünwald

Guillaume - Tôi đang cập nhật những điều trên để đưa nhận xét của bạn vào tài khoản
Peter Grünwald

7

Có sự đánh đổi sai lệch thông thường. Suy luận Bayes giả sử trường hợp đóng M [1,2], có phương sai nhỏ hơn [3] nhưng trong trường hợp mô hình sai chính tả, sai lệch tăng nhanh hơn [4]. Cũng có thể thực hiện suy luận Bayes giả sử trường hợp mở M [1,2], có phương sai cao hơn [3] nhưng trong trường hợp mô hình sai chính tả thì độ lệch nhỏ hơn [4]. Sự khác biệt của sự đánh đổi sai lệch giữa các trường hợp đóng M và đóng M của Bayes cũng xuất hiện trong một số tài liệu tham khảo trong các tài liệu tham khảo dưới đây, nhưng rõ ràng cần nhiều hơn nữa.

[1] Bernardo và Smith (1994). Lý thuyết Bayes. John Wiley \ & Con trai.

[2] Vehtari và Ojanen (2012). Một cuộc khảo sát về các phương pháp dự đoán Bayes để đánh giá, lựa chọn và so sánh mô hình. Khảo sát thống kê, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen và Aki Vehtari (2017). So sánh các phương pháp dự đoán Bayes để lựa chọn mô hình. Thống kê và tính toán, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson và Andrew Gelman (2017). Sử dụng xếp chồng để phân phối dự báo Bayes trung bình. bản in sẵn arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

Dưới đây là một vài cách khác để chứng minh suy luận Bayes trong các mô hình sai chính tả.

  • Bạn có thể xây dựng khoảng tin cậy trên trung bình sau, sử dụng công thức bánh sandwich (giống như cách bạn sẽ làm với MLE). Do đó, mặc dù các bộ đáng tin cậy không có phạm vi bảo hiểm, bạn vẫn có thể tạo khoảng tin cậy hợp lệ trên các công cụ ước tính điểm, nếu đó là điều bạn quan tâm.

  • Bạn có thể hủy bỏ phân phối sau để đảm bảo rằng các bộ đáng tin cậy có phạm vi bảo hiểm, đó là cách tiếp cận được thực hiện trong:

Müller, Ulrich K. "Nguy cơ suy luận Bayes trong các mô hình sai chính tả và ma trận hiệp phương sai sandwich." Kinh tế lượng 81,5 (2013): 1805-1849.

  • Có một sự biện minh không tiệm cận cho quy tắc Bayes: bỏ qua các điều kiện kỹ thuật, nếu trước là p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

Cảm ơn bạn cho bài viết của Muller: Tôi nghĩ rằng nó trả lời rất nhiều câu hỏi mà tôi có.
Guillaume Dehaene

6

ptrue(X)p(X|θ)θ

ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

A,¬Ap(θ|X,ϕ=ϕ0)=0

p(B|E)E=(E1,E2,,En)E, chương trình máy tính sẽ sập. Chúng tôi đã phát hiện ra điều này ,, theo kinh nghiệm, '' và sau khi một số ý nghĩ nhận ra rằng đó không phải là lý do cho sự mất tinh thần, mà là một công cụ chẩn đoán có giá trị cảnh báo chúng tôi về các trường hợp đặc biệt không lường trước được trong đó việc xây dựng vấn đề của chúng tôi có thể bị phá vỡ.

Nói cách khác, nếu việc xây dựng vấn đề của bạn không chính xác - nếu mô hình của bạn sai, thống kê bayes có thể giúp bạn phát hiện ra rằng đây là trường hợp và có thể giúp bạn tìm ra khía cạnh nào của mô hình là nguồn gốc của vấn đề.

Trong thực tế, có thể không hoàn toàn rõ ràng những kiến ​​thức nào có liên quan và liệu nó có nên được đưa vào đạo hàm hay không. Các kỹ thuật kiểm tra mô hình khác nhau (Chương 6 & 7 trong Gelman và cộng sự, 2013, cung cấp tổng quan) sau đó được sử dụng để tìm hiểu và xác định một công thức vấn đề không chính xác.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., & Rubin, DB (2013). Phân tích dữ liệu Bayes, ấn bản thứ ba. Chapman & Hội trường / CRC.

Jaynes, ET (2003). Lý thuyết xác suất: Logic của khoa học. Báo chí đại học Cambridge.


1
XiXi

1
@GuillaumeDehaene Câu hỏi của bạn là liệu có một số đối số cho việc sử dụng các vịnh khi mô hình bị sai. Rõ ràng, mô hình sai chính tả là không chính xác. Ngoài ra, bạn không thể biết apriori cho dù mô hình của bạn bị sai sót nghiêm trọng hay chỉ là sai chính tả. Trong thực tế, vịnh có thể cho bạn biết chính xác điều đó, điều này làm cho nó hữu ích và câu trả lời của tôi đã chỉ ra điều đó.
matus

1α

p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0

5

MLE vẫn là một công cụ ước tính cho một tham số trong mô hình bạn chỉ định và giả sử là chính xác. Các hệ số hồi quy trong OLS thường xuyên có thể được ước tính bằng MLE và tất cả các thuộc tính bạn muốn đính kèm với nó (không thiên vị, một phương sai tiệm cận cụ thể) vẫn cho rằng mô hình tuyến tính rất cụ thể của bạn là chính xác.

Tôi sẽ tiến thêm một bước này và nói rằng mỗi khi bạn muốn gán ý nghĩa và tính chất cho một công cụ ước tính, bạn phải giả sử một mô hình. Ngay cả khi bạn lấy một mẫu đơn giản, bạn vẫn cho rằng dữ liệu có thể trao đổi và thường là IID.

Bây giờ, các công cụ ước tính Bayes có nhiều đặc tính mong muốn mà một MLE có thể không có. Ví dụ, gộp chung một phần, chính quy hóa và khả năng diễn giải của một hậu thế khiến nó trở nên hấp dẫn trong nhiều tình huống.


Bạn không cần phải giả sử IID cho một ý nghĩa để đưa ra ý nghĩa. Nó là đủ để giả định khả năng trao đổi (nhưng, vâng, đó vẫn là một giả định ...)
kjetil b halvorsen

@kjetil b halvorsen Cảm ơn bạn, tôi đã chỉnh sửa cho rõ ràng.
TrynnaDoStat

4

Tôi đề nghị Triết lý của Gelman & Shalizi và thực hành thống kê Bayes . Họ có câu trả lời mạch lạc, chi tiết và thực tế cho những câu hỏi này.

Chúng tôi nghĩ rằng hầu hết quan điểm nhận được về suy luận Bayes này là sai. Các phương pháp Bayes không quy nạp hơn bất kỳ phương thức suy luận thống kê nào khác. Phân tích dữ liệu Bayes được hiểu rõ hơn nhiều từ góc độ suy diễn giả thuyết . Ẩn ý trong thực tiễn Bayes tốt nhất là một lập trường có nhiều điểm tương đồng với phương pháp thống kê lỗi của Mayo (1996), mặc dù định hướng thường xuyên sau này. Thật vậy, các phần quan trọng của phân tích dữ liệu Bayes, như kiểm tra mô hình, có thể được hiểu là "các đầu dò lỗi" theo nghĩa của Mayo.

Chúng tôi tiến hành bằng cách kết hợp kiểm tra các trường hợp cụ thể của phân tích dữ liệu Bayes trong nghiên cứu khoa học xã hội thực nghiệm và kết quả lý thuyết về tính nhất quán và hội tụ của cập nhật Bayes. Phân tích dữ liệu khoa học xã hội đặc biệt nổi bật cho các mục đích của chúng tôi bởi vì có sự đồng ý chung rằng, trong lĩnh vực này, tất cả các mô hình được sử dụng đều sai - không chỉ sai lệch, mà thực sự là sai. Với đủ dữ liệu - và thường chỉ là một lượng khá vừa phải - bất kỳ nhà phân tích nào cũng có thể từ chối bất kỳ mô hình nào hiện đang được sử dụng với bất kỳ mức độ tin cậy mong muốn nào . Sự phù hợp mô hình dù sao cũng là một hoạt động có giá trị và thực sự là mấu chốt của phân tích dữ liệu. Để hiểu lý do tại sao lại như vậy, chúng ta cần kiểm tra cách các mô hình được xây dựng, trang bị, sử dụng và kiểm tra và ảnh hưởng của lỗi chính tả đến các mô hình.

...

Theo quan điểm của chúng tôi, tài khoản của đoạn cuối [của chế độ xem Bayes chuẩn] bị nhầm lẫn rất nhiều. Quá trình phân tích dữ liệu - Bayes hay nói cách khác - không kết thúc bằng việc tính toán các ước tính tham số hoặc phân phối sau. Thay vào đó, mô hình sau đó có thể được kiểm tra, bằng cách so sánh ý nghĩa của mô hình được trang bị với bằng chứng thực nghiệm. Người ta đặt ra các câu hỏi như liệu các mô phỏng từ mô hình được trang bị có giống với dữ liệu gốc hay không, liệu mô hình được trang bị có phù hợp với dữ liệu khác không được sử dụng trong sự phù hợp của mô hình hay không và liệu các biến mà mô hình nói có bị nhiễu không ('thuật ngữ lỗi') trong hiển thị thực tế các mẫu dễ phát hiện. Sự khác biệt giữa mô hình và dữ liệu có thể được sử dụng để tìm hiểu về các cách thức mà mô hình không phù hợp với mục đích khoa học, và do đó để thúc đẩy mở rộng và thay đổi mô hình (Phần 4.).


2

xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

xmxm


3
Tính trung bình của mô hình không thể cứu chúng ta: thật ngu ngốc khi cho rằng mô hình thực sự bằng cách nào đó nằm gọn trong phạm vi của mô hình lớn hơn của chúng ta. Với so sánh mô hình, chúng ta có thể xác định mô hình nào trong số các mô hình cung cấp tài khoản tốt nhất cho dữ liệu, nhưng điều này chỉ trả về một mô hình sai ít sai hơn các mô hình khác.
Guillaume Dehaene

Nó có thể giúp bạn đưa ra các suy luận / ước tính về một số lượng chưa biết kết hợp chặt chẽ sự không chắc chắn của mô hình. Nó không thể phát minh ra những giả thuyết mới cho bạn, mặc dù. Nếu có một máy móc thống kê phát minh ra các mô hình dưới dạng dữ liệu, ví dụ khoa học sẽ dễ dàng hơn nhiều.
innisfree

1

Làm thế nào để bạn xác định mô hình "xác định sai" là gì? Điều này có nghĩa là mô hình ...

  • đưa ra dự đoán "xấu"?
  • pT(x)
  • thiếu một tham số?
  • dẫn đến kết luận "xấu"?

Nếu bạn nghĩ về những cách mà một mô hình nhất định có thể được chỉ định sai, về cơ bản bạn sẽ trích xuất thông tin về cách tạo ra một mô hình tốt hơn. Bao gồm thông tin bổ sung trong mô hình của bạn!

Nếu bạn nghĩ về "mô hình" trong khung bayes, bạn luôn có thể tạo một mô hình không thể xác định sai. Một cách để làm điều này là bằng cách thêm nhiều tham số vào mô hình hiện tại của bạn. Bằng cách thêm nhiều tham số, bạn làm cho mô hình của mình linh hoạt và dễ thích nghi hơn. Phương pháp Machine Learning tận dụng triệt để ý tưởng này. Điều này làm cơ sở cho những thứ như "mạng lưới" và "cây hồi quy". Bạn cần phải suy nghĩ về các linh mục mặc dù (tương tự như thường xuyên cho ML).


model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

wiN(0,1)


xf(x)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.