Nếu số lượng quan tâm, thường là chức năng của một phân phối, thì khá hợp lý và dữ liệu của bạn là iid, bạn thường ở trong lãnh thổ khá an toàn. Tất nhiên, có những trường hợp khác khi bootstrap cũng hoạt động.
Ý nghĩa của việc bootstrap là "fail"
Nói rộng hơn, mục đích của bootstrap là xây dựng một phân phối lấy mẫu gần đúng cho thống kê quan tâm. Đây không phải là ước tính thực tế của tham số. Vì vậy, nếu thống kê về lợi ích (theo một số thay đổi và định tâm) là và trong phân phối, chúng tôi muốn phân phối bootstrap của chúng tôi hội tụ để phân phối . Nếu chúng ta không có điều này, thì chúng ta không thể tin vào những suy luận được đưa ra.X^nX^n→X∞X∞
Các kinh điển ví dụ khi bootstrap có thể thất bại, thậm chí trong một khuôn khổ iid được khi cố gắng xấp xỉ phân phối lấy mẫu của một số liệu thống kê để khắc nghiệt. Dưới đây là một cuộc thảo luận ngắn gọn.
Thống kê đơn hàng tối đa của một mẫu ngẫu nhiên từ phân phốiU[0,θ]
Đặt là một chuỗi các biến ngẫu nhiên thống nhất iid trên . Đặt . Phân phối của là
(Lưu ý rằng bằng một đối số rất đơn giản, điều này thực sự cũng cho thấy xác suất và thậm chí, gần như chắc chắn , nếu tất cả các biến ngẫu nhiên được xác định trên cùng một không gian.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Một phép tính cơ bản mang lại
hay nói cách khác, hội tụ trong phân phối đến một biến ngẫu nhiên theo cấp số nhân với trung bình .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Bây giờ, chúng tôi tạo một ước tính bootstrap (ngây thơ) về phân phối của bằng cách lấy lại mẫu bằng thay thế để lấy và sử dụng phân phối của điều kiện trên .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Nhưng, hãy quan sát rằng với xác suất , và do đó, phân phối bootstrap có khối lượng điểm bằng 0 ngay cả khi không có triệu chứng thực tế là phân phối giới hạn thực tế là liên tục.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Rõ ràng hơn, mặc dù phân phối giới hạn thực là theo cấp số nhân với trung bình , phân phối bootstrap giới hạn đặt khối lượng điểm ở 0 có kích thước độc lập với giá trị thực của . Bằng cách lấy đủ lớn, chúng ta có thể làm cho xác suất phân phối giới hạn thực sự nhỏ tùy ý cho bất kỳ khoảng cố định nào , nhưng bootstrap sẽ ( vẫn !) Báo cáo rằng có ít nhất xác suất 0,632 trong khoảng này! Từ đó, rõ ràng bootstrap có thể hành xử tùy tiện trong cài đặt này.θ1−e−1≈0.632 θθ[0,ε)
Tóm lại, bootstrap thất bại (thảm hại) trong trường hợp này. Mọi thứ có xu hướng sai khi xử lý các tham số ở cạnh của không gian tham số.
Một ví dụ từ một mẫu các biến ngẫu nhiên bình thường
Có những ví dụ tương tự khác về sự thất bại của bootstrap trong những trường hợp đơn giản đáng ngạc nhiên.
Hãy xem xét một mẫu từ trong đó không gian tham số cho bị giới hạn ở . MLE trong trường hợp này là . Một lần nữa, chúng tôi sử dụng ước tính bootstrap . Một lần nữa, có thể thấy rằng phân phối của (có điều kiện trên mẫu được quan sát) không hội tụ đến phân phối giới hạn giống như .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Mảng trao đổi
Có lẽ một trong những ví dụ ấn tượng nhất là cho một mảng có thể trao đổi. Đặt là một mảng các biến ngẫu nhiên sao cho mỗi cặp ma trận hoán vị và , các mảng và có cùng phân phối chung. Nghĩa là, hoán vị các hàng và cột của giữ cho bất biến phân phối. (Bạn có thể nghĩ về một mô hình hiệu ứng ngẫu nhiên hai chiều với một quan sát trên mỗi ô làm ví dụ, mặc dù mô hình này tổng quát hơn nhiều.)Y=(Yij)PQYPYQY
Giả sử chúng tôi muốn ước tính khoảng tin cậy cho giá trị trung bình (do giả định khả năng trao đổi được mô tả ở trên phương tiện của tất cả các tế bào phải giống nhau).μ=E(Yij)=E(Y11)
McCullagh (2000) đã xem xét hai cách tự nhiên khác nhau (tức là ngây thơ) để khởi động một mảng như vậy. Không ai trong số họ nhận được phương sai tiệm cận cho mẫu có nghĩa là chính xác. Ông cũng xem xét một số ví dụ về mảng trao đổi một chiều và hồi quy tuyến tính.
Người giới thiệu
Thật không may, vấn đề này là không cần thiết, vì vậy không ai trong số này đặc biệt dễ đọc.
P. Bickel và D. Freedman, Một số lý thuyết tiệm cận cho bootstrap . Ann. Thống kê , tập 9, không 6 (1981), 1196 Từ1217.
DWK Andrew, Sự không nhất quán của bootstrap khi một tham số nằm trên ranh giới của không gian tham số , Kinh tế lượng , tập. 68, không 2 (2000), 399 Hàng405.
P. McCullagh, Lấy mẫu lại và mảng có thể trao đổi , Bernoulli , vol. 6, không 2 (2000), 285 Điện thoại.
EL Lehmann và JP Romano, Thử nghiệm các giả thuyết thống kê , thứ 3. chủ biên, Springer (2005). [Chương 15: Phương pháp mẫu lớn chung]