Giả định về ước tính bootstrap của sự không chắc chắn


62

Tôi đánh giá cao sự hữu ích của bootstrap trong việc thu được các ước tính không chắc chắn, nhưng một điều luôn làm tôi bận tâm là phân phối tương ứng với các ước tính đó là phân phối được xác định bởi mẫu. Nhìn chung, có vẻ như là một ý tưởng tồi khi tin rằng tần số mẫu của chúng tôi trông giống hệt phân phối cơ bản, vậy tại sao âm thanh có thể chấp nhận được dựa trên phân phối trong đó tần số mẫu xác định phân phối cơ bản?

Mặt khác, điều này có thể không tệ hơn (có thể tốt hơn) so với các giả định phân phối khác mà chúng ta thường đưa ra, nhưng tôi vẫn muốn hiểu cách biện minh tốt hơn một chút.


3
Có một số câu hỏi liên quan bạn có thể muốn xem qua. Một số được liệt kê ở lề bên của trang này. Đây là một liên quan khi bootstrap thất bại và ý nghĩa của nó là thất bại.
Đức hồng y

Câu trả lời:


55

Có một số cách mà người ta có thể hình dung có thể áp dụng bootstrap. Hai cách tiếp cận cơ bản nhất là những gì được coi là bootstrap "không tham số" và "tham số". Cái thứ hai giả định rằng mô hình bạn đang sử dụng là (về cơ bản) chính xác.

Hãy tập trung vào cái đầu tiên. Chúng tôi sẽ cho rằng bạn có một ngẫu nhiên mẫu phân phối theo các chức năng phân phối . (Giả sử theo cách khác yêu cầu các cách tiếp cận được sửa đổi.) Hãy để là phân phối tích lũy theo kinh nghiệm chức năng. Phần lớn động lực cho bootstrap đến từ một vài sự thật.X1,X2,,XnFF^n(x)=n1i=1n1(Xix)

Bất bình đẳng Dvoretzky Kiefer trên Wolfowitz

P(supxR|F^n(x)F(x)|>ε)2e2nε2.

Điều này cho thấy rằng hàm phân phối theo kinh nghiệm hội tụ đồng nhất với hàm phân phối thực theo xác suất nhanh theo cấp số nhân . Thật vậy, sự bất bình đẳng này cùng với bổ đề Borel Cant Cantelli cho thấy ngay lập tức rằng gần như chắc chắn.supxR|F^n(x)F(x)|0

Không có điều kiện bổ sung trên mẫu để đảm bảo sự hội tụ này.F

Về mặt heurist, sau đó, nếu chúng ta quan tâm đến một số chức năng của chức năng phân phối trơn tru , thì chúng ta hy vọng sẽ gần với .T(F)T(F^n)T(F)

(Theo chiều hướng) Không thiên vị củaF^n(x)

Bằng cách tuyến tính đơn giản của kỳ vọng và định nghĩa của , với mỗi ,F^n(x)xR

EFF^n(x)=F(x).

Giả sử chúng ta quan tâm đến trung bình . Sau đó, tính không thiên vị của biện pháp thực nghiệm mở rộng đến tính không thiên vị của các chức năng tuyến tính của biện pháp thực nghiệm. Vì vậy, μ=T(F)

EFT(F^n)=EFX¯n=μ=T(F).

Vì vậy, trung bình đúng và vì đang nhanh chóng tiếp cận , sau đó (theo kinh nghiệm), nhanh chóng tiếp cận .T(F^n)Fn^FT(F^n)T(F)

Để xây dựng một khoảng tin cậy ( về cơ bản, đó là tất cả những gì về bootstrap ), chúng ta có thể sử dụng định lý giới hạn trung tâm, tính nhất quán của các lượng tử thực nghiệm và phương pháp delta như các công cụ để chuyển từ các hàm tuyến tính đơn giản sang các thống kê quan tâm phức tạp hơn .

Tài liệu tham khảo tốt là

  1. B. Phương pháp Efron, Bootstrap: Một cái nhìn khác về jackknife , Ann. Thống kê , tập 7, không 1, 1 Ném26.
  2. B. Efron và R. Tibshirani, Giới thiệu về Bootstrap , Chapman hay Hall, 1994.
  3. GA Young và RL Smith, Yếu tố cần thiết của suy luận thống kê , Nhà xuất bản Đại học Cambridge, 2005, Chương 11 .
  4. AW van der Vaart, Thống kê tiệm cận , Nhà xuất bản Đại học Cambridge, 1998, Chương 23 .
  5. P. Bickel và D. Freedman, Một số lý thuyết tiệm cận cho bootstrap . Ann. Thống kê , tập 9, không 6 (1981), 1196 Từ1217.

Rất đẹp, @cardinal (+1).

Giải thích rõ ràng, tài liệu tham khảo được đưa ra, câu trả lời tuyệt vời.
hôm nay

12

Đây là một cách tiếp cận khác nhau để suy nghĩ về nó:

Bắt đầu với lý thuyết nơi chúng ta biết phân phối thực sự, chúng ta có thể khám phá các thuộc tính của thống kê mẫu bằng cách mô phỏng từ phân phối thực. Đây là cách Gosset phát triển phân phối t và kiểm tra t, bằng cách lấy mẫu từ các quy tắc đã biết và tính toán thống kê. Đây thực sự là một hình thức của bootstrap tham số. Lưu ý rằng chúng tôi đang mô phỏng để khám phá hành vi của số liệu thống kê (đôi khi liên quan đến các tham số).

Bây giờ, nếu chúng ta không biết phân bố dân số, chúng ta có một ước tính về phân phối trong phân phối theo kinh nghiệm và chúng ta có thể lấy mẫu từ đó. Bằng cách lấy mẫu từ phân phối theo kinh nghiệm (được biết đến), chúng ta có thể thấy mối quan hệ giữa các mẫu bootstrap và phân phối theo kinh nghiệm (dân số cho mẫu bootstrap). Bây giờ chúng tôi suy luận rằng mối quan hệ từ các mẫu bootstrap đến phân phối theo kinh nghiệm giống như từ mẫu đến dân số chưa biết. Tất nhiên mối quan hệ này chuyển dịch tốt như thế nào sẽ phụ thuộc vào mức độ đại diện của mẫu dân số.

Hãy nhớ rằng chúng tôi không sử dụng phương tiện của các mẫu bootstrap để ước tính trung bình dân số, chúng tôi sử dụng ý nghĩa mẫu cho điều đó (hoặc bất cứ số liệu thống kê quan tâm nào). Nhưng chúng tôi đang sử dụng các mẫu bootstrap để ước tính các thuộc tính (độ lây lan, độ lệch) của bộ xử lý lấy mẫu. Và sử dụng lấy mẫu từ một dân số biết (mà chúng tôi hy vọng là đại diện cho dân số quan tâm) để tìm hiểu các tác động của việc lấy mẫu có ý nghĩa và ít thông tư hơn nhiều.


8

Thủ thuật chính (và sting) của bootstrapping là đó là một lý thuyết tiệm cận: nếu bạn có một mẫu vô hạn để bắt đầu, phân phối theo kinh nghiệm sẽ rất gần với phân phối thực tế mà sự khác biệt là không đáng kể.

Thật không may, bootstrapping thường được áp dụng trong các cỡ mẫu nhỏ. Cảm giác chung là bootstrapping đã cho thấy nó hoạt động trong một số tình huống không có triệu chứng, nhưng dù sao cũng phải cẩn thận. Nếu mẫu của bạn quá nhỏ, trên thực tế, bạn đang làm việc có điều kiện trên mẫu của bạn là một 'đại diện tốt' của phân phối thực, điều này dẫn đến rất dễ dẫn đến lý luận trong vòng tròn :-)


đó là những gì tôi nghĩ, nhưng có một vài thông tư về lý do này. Tôi không phải là một nhà thống kê, nhưng ý nghĩa của tôi là suy luận thống kê hoạt động khi các công cụ ước tính của bạn hội tụ nhanh chóng, vì vậy ngay cả khi mẫu của bạn không hội tụ về phân phối, suy luận của bạn vẫn đúng. Trong trường hợp này, chúng tôi dựa vào toàn bộ phân phối theo kinh nghiệm để hội tụ vào phân phối thực tế. Có thể có những định lý nói rằng một số ước tính bootstrap hội tụ nhanh chóng, nhưng tôi thường thấy bootstrapping được áp dụng mà không hấp dẫn các định lý như vậy.
dùng4733

4
Lý do tròn rõ ràng là lý do tại sao nó được đặt biệt danh là bootstrap. Cảm giác như mọi người đang cố gắng tự nâng mình bằng bootstraps của chính họ. Sau đó Efron cho thấy rằng nó thực sự đã làm việc.
Greg Snow

Nếu cỡ mẫu thực sự nhỏ, bạn cần rất nhiều sự tin tưởng dù sử dụng phương pháp nào mà
yuo

5

Tôi sẽ không tranh luận từ góc độ "không có triệu chứng, phân phối theo kinh nghiệm sẽ gần với phân phối thực tế" (tất nhiên, rất đúng), nhưng từ "viễn cảnh dài hạn". Nói cách khác, trong mọi trường hợp cụ thể, phân phối theo kinh nghiệm có nguồn gốc từ bootstrapping sẽ bị tắt (đôi khi bị dịch chuyển quá xa theo cách này, đôi khi dịch chuyển quá xa theo cách đó, đôi khi quá sai lệch theo cách này, đôi khi quá sai lệch theo cách đó), nhưng trung bình nó sẽ là một xấp xỉ tốt cho phân phối thực tế. Tương tự, các ước tính không chắc chắn của bạn có được từ phân phối bootstrap sẽ bị tắt trong mọi trường hợp cụ thể, nhưng một lần nữa, trung bình, chúng sẽ (xấp xỉ) đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.