Tại sao bootstrapping hữu ích?


13

Nếu tất cả những gì bạn đang làm là lấy mẫu lại từ phân phối theo kinh nghiệm, tại sao không chỉ nghiên cứu phân phối theo kinh nghiệm? Ví dụ, thay vì nghiên cứu tính biến thiên bằng cách lấy mẫu lặp đi lặp lại, tại sao không chỉ định lượng độ biến thiên từ phân phối theo kinh nghiệm?


6
" (Theo nghĩa này), phân phối bootstrap đại diện cho phân phối (không gần đúng), không tương xứng cho tham số của chúng tôi. Nhưng phân phối bootstrap này có được một cách không đau đớn - mà không phải chính thức chỉ định trước và không phải lấy mẫu từ phân phối sau. chúng ta có thể nghĩ về việc phân phối bootstrap như là một hậu thế của người nghèo của người Viking. "Hastie et al. Các yếu tố của học thống kê ". Giáo phái 8.4.
usεr11852 nói Phục hồi Monic

8
Làm thế nào chúng ta sẽ định lượng sự không chắc chắn của các ước tính của chúng tôi từ phân phối theo kinh nghiệm?
usεr11852 nói Phục hồi Monic

2
"Trong điều kiện đều đặn nhẹ, bootstrap mang lại một xấp xỉ cho phân phối của một công cụ ước tính hoặc thống kê kiểm tra ít nhất là chính xác như xấp xỉ thu được từ lý thuyết tiệm cận bậc nhất". chú.edu/~sarawat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
Bạn đang cãi nhau, không cố gắng để hiểu. Tin tôi đi, bạn đã không nhận ra rằng bootstrap là vô giá trị so với hàng ngàn nhà thống kê trong hơn bốn thập kỷ. Bạn đã không đọc các trích dẫn cẩn thận. Tôi nghĩ rằng bạn đã không nắm bắt được vai trò ngẫu nhiên quan trọng trong thống kê. Những câu như "Tại sao phải bận tâm !!" đối với việc "nhận phân phối là ... không bình thường, phải nói là ít nhất. Nếu bạn không nghĩ điều quan trọng là phải hiểu phân phối ước tính của mình, bạn có thể muốn xem xét tại sao lĩnh vực thống kê tồn tại tất cả, và nghĩ lại rằngT(X)
jbowman

4
@ztyh Bạn nói "nếu bạn ánh xạ từng mẫu thành T ( X ), bạn sẽ nhận được phân phối T ( X ) ". Có lẽ bạn nên suy nghĩ về vấn đề này, làm thế nào bạn sẽ ánh xạ một điểm duy nhất X i để T ( X ) = ˉ X ? Hoặc bất kỳ chức năng T ( X 1 , X 2 , X n ) cho rằng vấn đề. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

Câu trả lời:


18

Bootstrapping (hoặc lấy mẫu lại khác) là một phương pháp thử nghiệm để ước tính phân phối của một thống kê.

Đây là một phương pháp rất đơn giản và dễ dàng (nó chỉ có nghĩa là bạn tính toán với nhiều biến thể ngẫu nhiên của dữ liệu mẫu để có được, ước tính, phân phối thống kê mong muốn).

Bạn rất có thể sử dụng nó khi biểu thức 'lý thuyết / phân tích' quá khó để có được / tính toán (hoặc như aksakal nói đôi khi chúng không được biết).

  • Ví dụ 1: Nếu bạn thực hiện phân tích pca và muốn so sánh kết quả với 'ước tính độ lệch của giá trị bản địa' đưa ra giả thuyết rằng không có mối tương quan trong các biến.

    Bạn có thể, xáo trộn dữ liệu nhiều lần và tính lại các giá trị riêng của pca để bạn có được phân phối (dựa trên các thử nghiệm ngẫu nhiên với dữ liệu mẫu) cho các giá trị riêng.

    Lưu ý rằng các thực tiễn hiện tại đang nhìn vào một âm mưu và áp dụng quy tắc ngón tay cái để 'quyết định' liệu một giá trị riêng có quan trọng / quan trọng hay không.

  • Ví dụ 2: Bạn đã thực hiện hồi quy phi tuyến tính y ~ f (x) cung cấp cho bạn một số ước tính về bó tham số cho hàm f. Bây giờ bạn muốn biết lỗi tiêu chuẩn cho các tham số đó.

    Một số cái nhìn đơn giản về phần dư và đại số tuyến tính, như trong OLS, không thể có ở đây. Tuy nhiên, một cách dễ dàng là tính toán hồi quy tương tự nhiều lần với các phần dư / lỗi được xáo trộn lại để có ý tưởng về các tham số sẽ thay đổi như thế nào (đưa ra phân phối cho thuật ngữ lỗi có thể được mô hình hóa bằng phần dư được quan sát).


Viết bởi StackExchangeStrike


2
Tôi nghĩ rằng ví dụ của bạn không phải là một bootstrap. Nó chỉ lấy mẫu từ một phân phối null được biết đến. Bootstrap là nơi bạn có một mẫu và liên tục lấy mẫu lại từ mẫu đó.
ztyh

3
Trong câu hỏi của bạn, bạn tưởng tượng để tính toán phương sai của một mẫu, điều này thực sự đơn giản và không yêu cầu bootstrapping. Trong ví dụ của tôi, tôi nói về một tình huống trong đó chúng ta có một giá trị được lấy từ mẫu. Sau đó, chúng ta không thể đơn giản tính toán một phương sai nữa, chúng ta vẫn muốn biết nó thay đổi như thế nào. Bằng cách xáo trộn dữ liệu nhiều lần và tính lại giá trị bản địa pca, bạn có thể nhận được dữ liệu phân phối (ngẫu nhiên) như vậy sau khi phân phối mẫu của bạn. Nếu tôi không nhầm thì đây được gọi là bootstrapping.
Sextus Empiricus

Ok, tôi thấy nơi tôi đã hiểu lầm mọi thứ. Ví dụ của bạn có ý nghĩa. Cảm ơn.
ztyh

8

Điều quan trọng là bootstrap không thực sự tìm ra các tính năng phân phối dữ liệu , mà là tìm ra các tính năng của một công cụ ước tính được áp dụng cho dữ liệu.

Một cái gì đó giống như chức năng phân phối theo kinh nghiệm sẽ cho bạn biết một ước tính khá tốt về CDF mà dữ liệu đến từ ... nhưng bằng cách cô lập, nó về cơ bản không cho bạn biết những người ước tính mà chúng tôi xây dựng từ dữ liệu đó đáng tin cậy đến mức nào. Đây là câu hỏi được trả lời bằng cách sử dụng bootstrap.


1
Sử dụng bootstrap (không tham số) để tìm "phân phối dữ liệu" sẽ là một trò cười: nó chỉ xuất hiện với chức năng phân phối theo kinh nghiệm, chính xác là tập hợp dữ liệu mà nhà phân tích bắt đầu. Nhắc nhở tôi về đại số đại học khi tôi "giải cho X" và tìm "X = X".
AdamO

3

NẾU bạn biết chính xác phân phối cơ bản là gì, thì bạn không cần phải nghiên cứu nó. Đôi khi, trong khoa học tự nhiên, bạn biết chính xác sự phân phối.

NẾU bạn biết loại phân phối, thì bạn chỉ cần ước tính các tham số của nó và nghiên cứu nó theo nghĩa bạn muốn nói. Ví dụ, đôi khi bạn biết một tiên nghiệm rằng phân phối cơ bản là bình thường. Trong một số trường hợp, bạn thậm chí biết ý nghĩa của nó là gì. Vì vậy, đối với bình thường, điều duy nhất còn lại để tìm hiểu là độ lệch chuẩn. Bạn nhận được độ lệch chuẩn mẫu từ mẫu và voila, bạn có được phân phối để nghiên cứu.

NẾU bạn không biết phân phối là gì, nhưng nghĩ rằng đó là một trong số nhiều phân phối trong danh sách, thì bạn có thể thử điều chỉnh phân phối đó cho dữ liệu và chọn phân phối phù hợp nhất. THÌ bạn học phân phối đó.

Cuối cùng, bạn thường không biết loại phân phối mà bạn đang giao dịch. Và bạn không có lý do để tin rằng nó thuộc về một trong 20 bản phân phối mà R có thể phù hợp với dữ liệu của bạn. Bạn định làm gì? Ok, bạn nhìn vào độ lệch trung bình và tiêu chuẩn, tốt đẹp. Nhưng nếu nó rất sai lệch thì sao? Điều gì nếu kurtosis của nó là rất lớn? và như thế. Bạn thực sự cần phải biết tất cả những khoảnh khắc phân phối để biết , và nghiên cứu nó. Vì vậy, trong trường hợp này bootstrapping không tham số có ích. Bạn không giả định nhiều, và mẫu đơn giản từ nó, sau đó nghiên cứu các khoảnh khắc của nó và các thuộc tính khác.

Mặc dù bootstrapping không tham số không phải là một công cụ ma thuật, nó có vấn đề. Ví dụ, nó có thể được thiên vị. Tôi nghĩ bootstrapping tham số là không thiên vị


1
Tôi nghĩ ngay cả khi bạn không biết phân phối thực sự, nhiều khoảnh khắc rất dễ tính toán. Vì vậy, tôi nghĩ rằng vấn đề không phải là không biết loại phân phối mà bạn đang giải quyết. Thay vào đó là về loại thống kê mà bạn đang cố gắng nghiên cứu. Một số thống kê có thể khó tính toán và chỉ sau đó bootstrap mới hữu ích.
ztyh

Giống như trong nhận xét cho câu hỏi cho chúng tôiεr11852, thực sự tôi nghi ngờ về lợi ích liên quan đến khả năng tính toán của thống kê cũng ...
ztyh

ln(x3+x)

1
quantile là một ví dụ ngu ngốc, tôi sẽ cung cấp cho bạn điều đó. thay vào đó hãy thử trong thực tế tôi phải dự đoán xzf(x,z)x,z

1
Làm thế nào bao giờ phức tạp có lẽ, tất cả các bạn phải làm là lập bản đồ các mẫu của xfxzf(x,z)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.