Có thể giải thích bootstrap từ góc độ Bayes?


43

Ok, đây là một câu hỏi khiến tôi thức đêm.

Thủ tục bootstrap có thể được hiểu là xấp xỉ một số thủ tục Bayes (ngoại trừ bootstrap Bayesian) không?

Tôi thực sự thích cách "diễn giải" các số liệu thống kê mà tôi thấy rất mạch lạc và dễ hiểu. Tuy nhiên, tôi cũng có một điểm yếu cho thủ tục bootstrap rất đơn giản nhưng vẫn mang lại những suy luận hợp lý trong nhiều tình huống. Tôi sẽ hạnh phúc hơn với bootstrapping, tuy nhiên, nếu tôi biết rằng bootstrap gần đúng với phân phối sau này theo một nghĩa nào đó.

Tôi biết về "Bootstrap Bayes" (Rubin, 1981), nhưng theo quan điểm của tôi thì phiên bản bootstrap cũng có vấn đề như bootstrap tiêu chuẩn. Vấn đề là giả định mô hình thực sự đặc biệt mà bạn đưa ra, cả khi thực hiện bootstrap cổ điển và Bayesian, nghĩa là các giá trị có thể có của phân phối chỉ là các giá trị tôi đã thấy. Làm thế nào những giả định mô hình kỳ lạ này vẫn có thể mang lại những suy luận rất hợp lý mà các thủ tục bootstrap mang lại? Tôi đã tìm kiếm các bài báo đã điều tra các thuộc tính của bootstrap (ví dụ Weng, 1989) nhưng tôi không tìm thấy bất kỳ lời giải thích rõ ràng nào mà tôi hài lòng.

Người giới thiệu

Donald B. Rubin (1981). Bootstrap Bayes. Ann. Thống kê. Tập 9, Số 1, 130-134.

Chung-Sing Weng (1989). Trên một thuộc tính tiệm cận bậc hai của ý nghĩa Bootstrap Bayesian. Biên niên sử Thống kê , Tập. 17, số 2, trang 705-710.


3
Tôi vừa viết một bài đăng trên blog về "bootstrap như một mô hình Bayes" ( sumsar.net/blog/2015/04/ ( )) khám phá "lời giải thích" của Bayesian về bootstrap. Nó không trả lời trực tiếp các câu hỏi ở trên nhưng tôi hy vọng nó làm cho nó rõ hơn bootstrap là gì và nó làm gì.
Rasmus Bååth

Đọc muliere và secchi (1996) suy luận tiên đoán phi mô hình và kỹ thuật bootstrap. Thay địa chỉ chính xác quan điểm của bạn!

Câu trả lời:


30

Phần 8.4 của các yếu tố của việc học thống kê của Hastie, Tibshirani và Friedman là "Mối quan hệ giữa Bootstrap và suy luận Bayes". Đó có thể chỉ là những gì bạn đang tìm kiếm. Tôi tin rằng cuốn sách này có sẵn miễn phí thông qua một trang web của Stanford, mặc dù tôi không có liên kết trên tay.

Biên tập:

Đây là một liên kết đến cuốn sách mà các tác giả đã cung cấp miễn phí trực tuyến:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Trên trang 272, các tác giả viết:

Theo nghĩa này, phân phối bootstrap đại diện cho một phân phối sau (không gần đúng), không tương xứng cho tham số của chúng tôi. Nhưng phân phối bootstrap này thu được một cách không đau đớn - mà không phải chính thức chỉ định trước và không phải lấy mẫu từ phân phối sau. Do đó, chúng ta có thể nghĩ về việc phân phối bootstrap như là một hậu thế của người nghèo của người Viking. Bằng cách gây nhiễu dữ liệu, bootstrap xấp xỉ hiệu ứng Bayes của nhiễu các tham số và thường đơn giản hơn nhiều để thực hiện.

Một câu đố nữa được tìm thấy trong câu hỏi được xác thực chéo này trong đó đề cập đến sự bất bình đẳng Dvoretzky KieferTHER Wolfowitz "cho thấy [...] rằng hàm phân phối theo kinh nghiệm hội tụ đồng nhất với hàm phân phối thực sự nhanh chóng theo xác suất."

Vì vậy, tất cả trong tất cả các bootstrap không tham số có thể được xem như là một phương pháp tiệm cận tạo ra "phân phối sau không tương đương, không chính xác cho tham số của chúng tôi" và khi phép tính gần đúng này tăng "nhanh theo cấp số nhân" khi số lượng mẫu tăng lên.


3
Mặc dù chúng tôi luôn đánh giá cao các tài liệu tham khảo cho tài liệu liên quan, câu trả lời này sẽ được cải thiện rất nhiều nếu bao gồm một bản tóm tắt ngắn gọn về phần đó.
Đức hồng y

1
Bit cuối cùng từ phần đó có thể hữu ích hơn: Bootstrap là một phân phối sau không tham số, không thông tin gần đúng cho tham số ước tính. Toàn bộ phần đáng để đọc.
Fraijo

2
Cảm ơn các liên kết! Nếu tôi đọc Hastie et al. đúng, họ cho thấy một sự tương ứng giữa boostrap không tham số và bootstrap Bayes và tuyên bố rằng cái trước gần đúng cái sau. Họ không viết nhiều về lý do tại sao bootstrap (bayesian hay không) dẫn đến kết luận hợp lý ngay từ đầu. Điều tôi đã hy vọng là một cái gì đó như: "Trong [một số trường hợp chung], bootstrap xấp xỉ phân phối sau của tham số / thống kê thực sự với một lỗi là [một cái gì đó] và điều đó phụ thuộc vào [cái này và cái kia]".
Rasmus Bååth

Cảm ơn sự giúp đỡ trong việc cải thiện câu trả lời của tôi. Giải thích rõ ràng nhất mà tôi đã nghe về lý do tại sao bootstrap hoạt động là mẫu mà bạn vừa thu thập là đại diện tốt nhất mà bạn có trong toàn bộ dân số. Nhưng tôi không đủ khả năng để đưa ra điều đó chính thức hơn.
EdM

Nếu tôi nhớ lại, họ đưa ra lập luận này, khởi động lại NN và tiến hành lấy kem bởi một Bayesian NN đầy đủ của Radford Neal. Tôi nghĩ rằng nó nói một cái gì đó, không chắc chắn những gì mặc dù.
anh chàng

3

Đây là bài báo mới nhất tôi từng thấy về chủ đề này:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
Giải thích của tôi về bài báo là nó mô tả một phương pháp bootstrap để tính toán phân phối sau của một mô hình được chỉ định, đó là một phương pháp có thể được sử dụng thay vì lấy mẫu đô thị. Tôi không thấy rằng bài báo thảo luận về mối liên hệ giữa các giả định mô hình bootstrap không tham số và ước lượng Bayes ...
Rasmus Bååth

1
Nó yêu cầu để làm điều đó. Tôi chưa đọc chi tiết.
Frank Harrell

5
Frank: Tôi đã không nhận được nhiều khi đọc bài báo này của Efron - những gì anh ta làm có thể được xem như là một bộ lấy mẫu quan trọng liên tiếp bắt đầu từ khả năng và cố gắng đi đến hậu thế (thường sẽ hoạt động). Mục đích của Rubin trong bài báo năm 1981 là đặt câu hỏi về sự phù hợp của bootstrap nhưng rõ ràng Efron đã đạt được quan điểm ngược lại. David Draper đã đăng lại nó vào mùa hè này trong khóa học JSM của mình và kết luận điều đó không tốt trừ khi bạn thấy hầu hết các khả năng trong mẫu. Nhưng xem tại đây Normaldeviate.wordpress.com/2013/06/12/ Cách
phaneron

1

Tôi cũng bị quyến rũ bởi cả định lý bootstrapping và Bayes, nhưng tôi không thể hiểu nhiều về sự biện minh của bootstrapping cho đến khi tôi nhìn nó từ quan điểm của Bayes. Sau đó - như tôi giải thích bên dưới - phân phối bootstrap có thể được xem là phân phối sau của Bayes, điều này làm cho lý do (a?) Đằng sau bootstrapping rõ ràng, và cũng có lợi thế trong việc làm rõ các giả định được đưa ra. Có nhiều chi tiết hơn về lập luận dưới đây và các giả định được đưa ra, trong https://arxiv.org/abs/1803.06214 (trang 22-26).

Ví dụ: được thiết lập trên bảng tính tại http://woodm.myweb.port.ac.uk/SL/resample.xlsx (nhấp vào tab bootstrap ở cuối màn hình), giả sử chúng ta đã có một mẫu gồm 9 phép đo với giá trị trung bình là 60. Khi tôi sử dụng bảng tính để tạo ra 1000 mẫu thay thế từ mẫu này và làm tròn phương tiện thành số chẵn gần nhất, 82 trong số các phương tiện này là 54. Ý tưởng về bootstrapping là chúng tôi sử dụng mẫu như một quần thể "giả vờ" để xem khả năng của các mẫu 9 có thể thay đổi như thế nào, vì vậy điều này cho thấy xác suất của một mẫu có nghĩa là thấp hơn 6 so với dân số (trong trường hợp này là dân số giả vờ mẫu có giá trị trung bình là 60) là 8.2%. Và chúng ta có thể đi đến một kết luận tương tự về các thanh khác trong biểu đồ lấy mẫu lại.

Bây giờ hãy tưởng tượng rằng sự thật là giá trị trung bình của dân số thực là 66. Nếu đây là ước tính của chúng tôi về xác suất của mẫu có nghĩa là 60 (tức là Dữ liệu) là 8.2% (sử dụng kết luận trong đoạn trên ghi nhớ 60 là 6 dưới mức trung bình dân số giả định là 66). Hãy viết nó như là

P (Dữ liệu đã cho trung bình = 66) = 8.2%

và xác suất này tương ứng với giá trị x là 54 trên phân phối lấy mẫu lại. Cùng một loại đối số áp dụng cho mỗi dân số có thể có nghĩa là từ 0, 2, 4 ... 100. Trong mỗi trường hợp, xác suất xuất phát từ phân phối lấy mẫu lại - nhưng phân phối này được phản ánh về giá trị trung bình của 60.

Bây giờ hãy áp dụng định lý Bayes. Phép đo trong câu hỏi chỉ có thể lấy các giá trị trong khoảng từ 0 đến 100, do đó làm tròn đến số chẵn gần nhất, các khả năng cho trung bình dân số là 0, 2, 4, 6, .... 100. Nếu chúng ta giả sử rằng phân phối trước là phẳng, thì mỗi phân phối này có xác suất trước là 2% (đến 1 dp) và định lý của Bayes cho chúng ta biết rằng

P (PopMean = 66 dữ liệu đã cho) = 8.2% * 2% / P (Dữ liệu)

Ở đâu

P (Dữ liệu) = P (PopMean = 0 Dữ liệu đã cho) * 2% + P (PopMean = 2 Dữ liệu đã cho) * 2% + ... + P (PopMean = 100 Dữ liệu đã cho) * 2%

Bây giờ chúng ta có thể hủy 2% và nhớ rằng tổng xác suất phải là 1 vì xác suất chỉ đơn giản là xác suất từ ​​phân phối lấy mẫu lại. Điều đó cho chúng ta kết luận rằng

P (PopMean = 66) = 8.2%

Hãy nhớ rằng 8.2% là xác suất từ ​​phân phối lấy mẫu tương ứng với 54 (thay vì 66), phân phối sau chỉ đơn giản là phân phối lấy mẫu được phản ánh về giá trị trung bình mẫu (60). Hơn nữa, nếu phân phối lấy mẫu là đối xứng theo nghĩa là sự bất đối xứng là ngẫu nhiên - vì trong trường hợp này và nhiều trường hợp khác, chúng ta có thể lấy phân phối mẫu là giống hệt với phân phối xác suất sau.

Lập luận này đưa ra các giả định khác nhau, vấn đề chính là phân phối trước là thống nhất. Chúng được đánh vần chi tiết hơn trong bài viết được trích dẫn ở trên.


Có một thứ giống như một bootstrap Bayes được Rubin giới thiệu. Nhưng tôi không nghĩ rằng đó là những gì bạn đang đề cập đến. Bootstrap thông thường như được giới thiệu bởi Efron thực sự là một khái niệm thường xuyên.
Michael Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.