Có một kết quả cung cấp bootstrap là hợp lệ khi và chỉ khi thống kê trơn tru?


25

Trong suốt, chúng tôi giả sử thống kê của chúng tôi là một hàm của một số dữ liệu được rút ra từ hàm phân phối ; hàm phân phối theo kinh nghiệm của mẫu của chúng tôi là . Vì vậy, là số liệu thống kê được xem là một biến ngẫu nhiên và là phiên bản bootstrap của thống kê. Chúng tôi sử dụng làm khoảng cách KSX 1 , ... X n F F θ ( F ) θ ( F ) d θ()X1,XnFF^θ(F)θ(F^)d

Có kết quả "nếu và chỉ nếu" cho tính hợp lệ của bootstrap nếu thống kê là một thống kê tuyến tính đơn giản. Ví dụ Định lý 1 từ Mammen "Khi nào bootstrap hoạt động?"

Nếu đối với một số hàm tùy ý thì bootstrap hoạt động theo nghĩa là nếu và chỉ khi tồn tại và sao cho Nơi chúng ta có thể định nghĩa là một số chức năng của mẫu của chúng tôi và t_n = \ mathbb {E} (\ hat {t} _n)hnd[L(θ( F ) - t n),L(θ(F)-tn)]p0σntnd[L(θ(F)-tn)θ(F)= =1nΣtôi-1nhn(Xtôi)hn

d[L(θ(F^)-t^n),L(θ(F)-tn)]p0
σntn^ t n t n = E ( t n )
d[L(θ(F)-tn),N(0,σn2)]p0
tn^tn= =E(t^n)

Ngoài ra còn có kết quả tổng quát hơn rằng bootstrap hoạt động cho các số liệu thống kê chung, ví dụ Định lý 1.6.3 từ Lấy mẫu của Politis Romano và Wolf:

Giả sử F được rút ra từ lớp của tất cả các bản phân phối với sự hỗ trợ hữu hạn. Giả sử thống kê θ() là Frechet khác biệt tại F liên quan đến định mức tối cao và đạo hàm gF thỏa mãn 0<VarF[gF(x)]< . Sau đó θ(F) là không bình thường và bootstrap hoạt động theo nghĩa của định lý trước.

Tôi muốn một phiên bản `nếu và chỉ nếu 'của định lý thứ hai. Điều này sẽ đòi hỏi một khái niệm về độ mịn khác với sự khác biệt của Frechet vì Politis, Romano và Wolf (1999) cho thấy trung bình mẫu không phải là Frechet khác biệt nhưng bootstrap vẫn hoạt động. Tuy nhiên, trung vị mẫu vẫn là một chức năng trơn tru của dữ liệu.

Có một số ý kiến ​​không chính thức ở Mammen rằng sự trơn tru là cần thiết:

Điển hình là tuyến tính tiệm cận cục bộ dường như là cần thiết cho tính nhất quán của bootstrap

Các trích dẫn là:

van Zwet, W (1989). Buổi nói chuyện được đưa ra tại hội thảo về "Phương pháp tiệm cận cho các quy trình chuyên sâu về máy tính trong thống kê" tại Olberwolfach.

Nhưng tôi không thể tìm thấy dấu vết nào của cuộc nói chuyện này ngoài một số trích dẫn.


1
Chủ đề tuyệt vời. Có đúng rằng tất cả các kết quả được trích dẫn là không có triệu chứng cho kích thước mẫu sẽ đến vô cùng?
Michael M

3
@Michael Cảm ơn bạn và vâng, mọi thứ đều không có triệu chứng như . Ngẫu nhiên có một số công việc gần đây với kết quả cho các mẫu hữu hạn (ví dụ arxiv.org/pdf/1212.6906.pdf ) nhưng nó rất kỹ thuật. n
orizon

1
Chủ đề phức tạp. Một số người nói bootstrap không hoạt động nói chung. van Zwer và cộng sự. không nói người ta phải cẩn thận những gì bootstraped . Tôi nghĩ rằng người ta phải thiết lập những gì để bootstrap và những gì không phải bootstrap trước khi thử nghiệm thêm được bảo hành.
Carl

Bây giờ tôi đã cập nhật câu trả lời để đáp lại bình luận của Mammen, hy vọng rằng sẽ làm rõ thêm sự nhầm lẫn của bạn. Và nếu bạn muốn, bạn có thể giải thích một chút về ứng dụng thúc đẩy bạn hỏi về sự cần thiết. Điều đó sẽ giúp tôi cải thiện câu trả lời của tôi.
Henry.L

Câu trả lời:


12

(1) Tại sao các công cụ ước tính lượng tử không phải là Frechet khác biệt nhưng công cụ ước tính bootstrap của chúng vẫn nhất quán?

Bạn cần tính khác biệt của Hadamard (hoặc độ khác biệt nhỏ gọn tùy thuộc vào nguồn tham chiếu của bạn) như một điều kiện đủ để làm cho bootstrap hoạt động trong trường hợp đó, trung vị và bất kỳ lượng tử nào là khác biệt của Hadamard. Sự khác biệt của Frechet là quá mạnh trong hầu hết các ứng dụng.

Vì thông thường nó đủ để thảo luận về một không gian Ba ​​Lan, nên bạn muốn một hàm tuyến tính cục bộ áp dụng một đối số nén điển hình để mở rộng kết quả nhất quán của bạn với tình hình toàn cầu. Cũng xem các bình luận tuyến tính dưới đây.

Định lý 2.27 của [Wasserman] sẽ cho bạn một trực giác về việc phái sinh Hadamard là một khái niệm yếu hơn. Và Định lý 3.6 và 3.7 của [Shao & Tu] sẽ đưa ra điều kiện đủ cho tính nhất quán yếu về tính khác biệt của -Hadamard của chức năng thống kê với kích thước quan sát .T n nρTnn

(2) Điều gì sẽ ảnh hưởng đến tính nhất quán của các công cụ ước tính bootstrap?

[Shao & Tu] Trang 85-86 tình huống minh họa trong đó có thể xảy ra sự không nhất quán của các công cụ ước tính bootstrap.

(1) Các bootstrap là nhạy cảm với các hành vi đuôi của dân . Tính nhất quán của yêu cầu các điều kiện thời điểm nghiêm ngặt hơn các điều kiện cần thiết cho sự tồn tại của giới hạn .H B O O T H 0FHBÔiÔiTH0

(2) Tính nhất quán của công cụ ước tính bootstrap đòi hỏi một mức độ mịn nhất định từ thống kê (chức năng) nhất định .Tn

(3) Hành vi của công cụ ước tính bootstrap đôi khi phụ thuộc vào phương thức được sử dụng để lấy dữ liệu bootstrap.

Và trong Sec 3.5.2 của [Shao & Tu] họ xem xét lại ví dụ quantile sử dụng làm mịn hạt nhân . Lưu ý rằng các khoảnh khắc là các hàm tuyến tính, trích dẫn trong câu hỏi của bạn "Thông thường tuyến tính tiệm cận cục bộ dường như là cần thiết cho tính nhất quán của bootstrap" đang yêu cầu một số mức độ phân tích của chức năng, có thể cần thiết bởi vì nếu thất bại, bạn có thể tạo ra một số trường hợp bệnh lý như hàm Weierstrass (liên tục nhưng không có gì khác biệt).K

(3) Tại sao tuyến tính cục bộ dường như cần thiết trong việc đảm bảo tính nhất quán của công cụ ước tính bootstrap?

Đối với nhận xét "Thông thường tuyến tính tiệm cận địa phương dường như là cần thiết cho tính nhất quán của bootstrap" được thực hiện bởi Mammen như bạn đã đề cập. Một nhận xét từ [Shao & Tu] p.78 như sau, vì họ nhận xét tuyến tính hóa (toàn cầu) chỉ là một công nghệ tạo điều kiện cho bằng chứng về tính nhất quán và không cho thấy bất kỳ sự cần thiết nào:

Tuyến tính hóa là một kỹ thuật quan trọng khác trong việc chứng minh tính nhất quán của các công cụ ước tính bootstrap, vì các kết quả cho thống kê tuyến tính thường có sẵn hoặc có thể được thiết lập bằng cách sử dụng các kỹ thuật được giới thiệu trước đó. Giả sử rằng một Tn thống kê đã cho có thể được xấp xỉ bằng một biến ngẫu nhiên tuyến tính (trong đó là một thống kê tuyến tính theo ), nghĩa là (3.19) Đặt và là các chất tương tự bootstrap của và , dựa trên mẫu bootstrapφ(X)XTn=θ+ ¯ Z n +oP(1Zn¯= =1nΣtôi= =1nφ(Xn)φ(X)X

Tn= =θ+Zn¯+oP(1n)
Tn*Zn*¯TnZn¯{X1*,,Xn*} . Nếu chúng ta có thể thiết lập kết quả cho tương tự (3.19), tức là (3.20) thì giới hạn của (trong đó là giá trị của tham số) giống như của Do đó, chúng tôi đã giảm vấn đề thành vấn đề liên quan đến a "trung bình mẫu" , có công cụ ước tính phân phối bootstrap có thể được hiển thị là nhất quán bằng cách sử dụng các phương thức trong Phần 3.1.2-3.1.4.Tn*
Tn*= =θ+Zn¯*+oP(1n)
HBÔiÔiT(x)xP{= =P{n(Tn-Tn*)x} ¯ Z nP{n(Zn¯-Zn¯*)x}Zn¯

Và họ đã đưa ra một ví dụ 3.3 về việc đạt được tính nhất quán của bootstrap cho kiểu khởi động MLE. Tuy nhiên, nếu tuyến tính toàn cầu có hiệu quả theo cách đó, thật khó để tưởng tượng làm thế nào người ta sẽ chứng minh tính nhất quán mà không có tuyến tính cục bộ. Vì vậy, tôi đoán đó là những gì Mammen muốn nói.

(4) Nhận xét thêm

Ngoài các cuộc thảo luận được cung cấp bởi [Shao & Tu] ở trên, tôi nghĩ những gì bạn muốn là một điều kiện đặc trưng cho tính nhất quán của các công cụ ước tính bootstrap.

Đáng thương thay, tôi không biết một đặc điểm về tính nhất quán của một công cụ ước tính bootstrap cho một lớp phân phối rất chung trong . M(X)Thậm chí nếu có một tôi cảm thấy nó đòi hỏi không chỉ êm ái của. Nhưng có tồn tại đặc tính hóa cho một loại mô hình thống kê nhất định nhưlớptrong [Gine & Zinn]; hoặc lớp thường được hỗ trợ nhỏ gọn (trực tiếp từ thảo luận ở trên) được xác định trên một không gian Ba ​​Lan.CLTTCLT

Thêm vào đó, khoảng cách Kolmogorov - Smirnov, theo sở thích của tôi là khoảng cách sai nếu trọng tâm của chúng tôi là tiệm cận cổ điển (trái ngược với tiệm cận "đồng nhất" cho các quá trình theo kinh nghiệm). Do khoảng cách KS không tạo ra cấu trúc liên kết yếu, là nền tảng tự nhiên để nghiên cứu hành vi tiệm cận, nên cấu trúc liên kết yếu trên không gian được tạo ra bởi khoảng cách Lipchitz bị ràng buộc (khoảng cách OR Prohorov-Levy) được thông qua bởi [Huber] và nhiều tác giả khác khi trọng tâm không phải là quá trình thực nghiệm. Đôi khi việc thảo luận về hành vi hạn chế của quá trình thực nghiệm cũng liên quan đến khoảng cách BL như [Gine & Zinn].M(X)

Tôi ghét phải hoài nghi nhưng tôi vẫn cảm thấy rằng đây không phải là văn bản thống kê duy nhất là "trích dẫn từ khoảng trống". Khi nói điều này, tôi chỉ đơn giản cảm thấy việc trích dẫn bài nói chuyện của van Zwet là rất vô trách nhiệm mặc dù van Zwet là một học giả tuyệt vời.

Reference

[Wasserman] Wasserman, Larry. Tất cả các số liệu thống kê phi trắc nghiệm, Springer, 2010.

[Shao & Tu] Shao, Jun, và Đông Thắng Tu. Các jackknife và bootstrap. Mùa xuân, 1995.

[Gine & Zinn] Giné, Evarist và Joel Zinn. "Bootstrapping biện pháp thực nghiệm chung." Biên niên sử xác suất (1990): 851-869.

[Huber] Huber, Peter J. Robust thống kê. Wiley, 1985.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.