Tôi cũng bị quyến rũ bởi cả định lý bootstrapping và Bayes, nhưng tôi không thể hiểu nhiều về sự biện minh của bootstrapping cho đến khi tôi nhìn nó từ quan điểm của Bayes. Sau đó - như tôi giải thích bên dưới - phân phối bootstrap có thể được xem là phân phối sau của Bayes, điều này làm cho lý do (a?) Đằng sau bootstrapping rõ ràng, và cũng có lợi thế trong việc làm rõ các giả định được đưa ra. Có nhiều chi tiết hơn về lập luận dưới đây và các giả định được đưa ra, trong https://arxiv.org/abs/1803.06214 (trang 22-26).
Ví dụ: được thiết lập trên bảng tính tại http://woodm.myweb.port.ac.uk/SL/resample.xlsx (nhấp vào tab bootstrap ở cuối màn hình), giả sử chúng ta đã có một mẫu gồm 9 phép đo với giá trị trung bình là 60. Khi tôi sử dụng bảng tính để tạo ra 1000 mẫu thay thế từ mẫu này và làm tròn phương tiện thành số chẵn gần nhất, 82 trong số các phương tiện này là 54. Ý tưởng về bootstrapping là chúng tôi sử dụng mẫu như một quần thể "giả vờ" để xem khả năng của các mẫu 9 có thể thay đổi như thế nào, vì vậy điều này cho thấy xác suất của một mẫu có nghĩa là thấp hơn 6 so với dân số (trong trường hợp này là dân số giả vờ mẫu có giá trị trung bình là 60) là 8.2%. Và chúng ta có thể đi đến một kết luận tương tự về các thanh khác trong biểu đồ lấy mẫu lại.
Bây giờ hãy tưởng tượng rằng sự thật là giá trị trung bình của dân số thực là 66. Nếu đây là ước tính của chúng tôi về xác suất của mẫu có nghĩa là 60 (tức là Dữ liệu) là 8.2% (sử dụng kết luận trong đoạn trên ghi nhớ 60 là 6 dưới mức trung bình dân số giả định là 66). Hãy viết nó như là
P (Dữ liệu đã cho trung bình = 66) = 8.2%
và xác suất này tương ứng với giá trị x là 54 trên phân phối lấy mẫu lại. Cùng một loại đối số áp dụng cho mỗi dân số có thể có nghĩa là từ 0, 2, 4 ... 100. Trong mỗi trường hợp, xác suất xuất phát từ phân phối lấy mẫu lại - nhưng phân phối này được phản ánh về giá trị trung bình của 60.
Bây giờ hãy áp dụng định lý Bayes. Phép đo trong câu hỏi chỉ có thể lấy các giá trị trong khoảng từ 0 đến 100, do đó làm tròn đến số chẵn gần nhất, các khả năng cho trung bình dân số là 0, 2, 4, 6, .... 100. Nếu chúng ta giả sử rằng phân phối trước là phẳng, thì mỗi phân phối này có xác suất trước là 2% (đến 1 dp) và định lý của Bayes cho chúng ta biết rằng
P (PopMean = 66 dữ liệu đã cho) = 8.2% * 2% / P (Dữ liệu)
Ở đâu
P (Dữ liệu) = P (PopMean = 0 Dữ liệu đã cho) * 2% + P (PopMean = 2 Dữ liệu đã cho) * 2% + ... + P (PopMean = 100 Dữ liệu đã cho) * 2%
Bây giờ chúng ta có thể hủy 2% và nhớ rằng tổng xác suất phải là 1 vì xác suất chỉ đơn giản là xác suất từ phân phối lấy mẫu lại. Điều đó cho chúng ta kết luận rằng
P (PopMean = 66) = 8.2%
Hãy nhớ rằng 8.2% là xác suất từ phân phối lấy mẫu tương ứng với 54 (thay vì 66), phân phối sau chỉ đơn giản là phân phối lấy mẫu được phản ánh về giá trị trung bình mẫu (60). Hơn nữa, nếu phân phối lấy mẫu là đối xứng theo nghĩa là sự bất đối xứng là ngẫu nhiên - vì trong trường hợp này và nhiều trường hợp khác, chúng ta có thể lấy phân phối mẫu là giống hệt với phân phối xác suất sau.
Lập luận này đưa ra các giả định khác nhau, vấn đề chính là phân phối trước là thống nhất. Chúng được đánh vần chi tiết hơn trong bài viết được trích dẫn ở trên.