Tại sao chúng ta cần Bootstrapping?


16

Tôi hiện đang đọc "Tất cả các số liệu thống kê" của Larry Wasserman và bối rối bởi một cái gì đó ông đã viết trong chương về ước tính các chức năng thống kê của các mô hình không tham số.

Anh đã viết

"Đôi khi chúng ta có thể tìm thấy lỗi tiêu chuẩn ước tính của hàm thống kê bằng cách thực hiện một số tính toán. Tuy nhiên, trong các trường hợp khác, cách ước tính lỗi chuẩn không rõ ràng".

Tôi muốn chỉ ra rằng trong chương tiếp theo, anh ấy nói về bootstrap để giải quyết vấn đề này, nhưng vì tôi không thực sự hiểu câu nói này nên tôi không nhận được sự khích lệ đằng sau Bootstrapping?

Ví dụ nào là có khi không rõ ràng làm thế nào để ước tính lỗi tiêu chuẩn?

Tất cả các ví dụ tôi đã thấy cho đến nay là "rõ ràng", chẳng hạn như rồiX1,...Xn Ber(p)se^(p^n)=p^(1p^)/n


Câu trả lời:


16

Hai câu trả lời.

  1. Lỗi tiêu chuẩn của tỷ lệ của hai phương tiện là gì? Lỗi tiêu chuẩn của trung vị là gì? Lỗi tiêu chuẩn của bất kỳ thống kê phức tạp là gì? Có thể có một phương trình dạng đóng, nhưng có thể là chưa có ai thực hiện được.
  2. Để sử dụng công thức cho (giả sử) sai số chuẩn của giá trị trung bình, chúng ta phải đưa ra một số giả định. Nếu những giả định đó bị vi phạm, chúng ta không nhất thiết phải sử dụng phương pháp này. Như @Whuber chỉ ra trong các bình luận, bootstrapping cho phép chúng ta thư giãn một số giả định này và do đó có thể cung cấp các lỗi tiêu chuẩn phù hợp hơn (mặc dù nó cũng có thể đưa ra các giả định bổ sung).

2
Câu trả lời 1 là tốt, nhưng câu trả lời 2 dường như đặt ra câu hỏi, bởi vì bootstrapping cũng đưa ra các giả định. Tôi cho rằng vấn đề có thể là nó thường đưa ra các giả định khác với các thủ tục phổ biến khác, nhưng đó chỉ là phỏng đoán của tôi về những gì bạn đang cố gắng nói và tôi có thể bị nhầm lẫn.
whuber

@Whuber - cảm ơn, tôi đã thêm một chút làm rõ.
Jeremy Miles

5
Cảm ơn bạn đã chỉnh sửa. Nhưng đó không phải là trường hợp bootstrapping thường đưa ra các giả định khác nhau , thay vì thực sự thư giãn một số? Ví dụ, các giả định cần thiết để ước tính SE của trung bình mẫu là dữ liệu là iid và phân phối cơ bản có phương sai hữu hạn. Bootstrap thực sự phải thêm các giả định trong trường hợp này: nó không hoạt động trừ khi cỡ mẫu "đủ lớn". Mặc dù điều này có vẻ giống như ngụy biện về kỹ thuật, nhưng điều tôi đang cố gắng giải quyết là một bức tranh lớn: bootstrapping không phải là thuốc chữa bách bệnh cũng không phải lúc nào cũng được áp dụng.
whuber

3
@JeremyMiles bootstrap không có giả định. Bạn cần xác minh rằng phân phối là mấu chốt cho hầu hết các tính toán lỗi bootstrap thường có thể phức tạp hơn so với việc lấy một công cụ ước tính nhất quán cho một lỗi tiêu chuẩn. Ngoài ra, tỷ lệ phương tiện có xấp xỉ lỗi rất dễ dàng thu được từ phương pháp.. Vì vậy, tôi không nghĩ rằng ví dụ đó bất chấp quan điểm của OP.
AdamO

9

Một ví dụ có thể giúp minh họa. Giả sử, trong khung mô hình nguyên nhân, bạn quan tâm đến việc xác định liệu mối quan hệ giữa (mức độ quan tâm) của Y (kết quả của mối quan tâm) có qua trung gian của biến W không . Điều này có nghĩa là trong hai mô hình hồi quy:XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

Hiệu ứng khác với hiệu ứng γ 1 .β1γ1

Ví dụ, xem xét mối quan hệ giữa nguy cơ hút thuốc và tim mạch (CV). Hút thuốc rõ ràng làm tăng nguy cơ CV (đối với các sự kiện như đau tim và đột quỵ) bằng cách làm cho các tĩnh mạch trở nên giòn và vôi hóa. Tuy nhiên, hút thuốc cũng là một chất ức chế sự thèm ăn. Vì vậy, chúng tôi sẽ tò mò liệu mối quan hệ ước tính giữa hút thuốc và rủi ro CV có qua trung gian BMI hay không, mà độc lập là yếu tố rủi ro đối với rủi ro CV. Ở đây có thể là một sự kiện nhị phân (nhồi máu cơ tim hoặc thần kinh) trong mô hình hồi quy logistic hoặc một biến liên tục như vôi hóa động mạch vành (CAC), phân suất tống máu thất trái (LVEF) hoặc khối tâm thất trái (LVM).Y

Chúng tôi sẽ phù hợp với hai mô hình 1: điều chỉnh hút thuốc và kết quả cùng với các yếu tố gây nhiễu khác như tuổi tác, giới tính, thu nhập và tiền sử gia đình mắc bệnh tim sau đó 2: tất cả các đồng biến trước đó cũng như chỉ số khối cơ thể. Sự khác biệt về hiệu ứng hút thuốc giữa các mô hình 1 và 2 là nơi chúng tôi dựa trên suy luận của mình.

H:β1=γ1K:β1γ1

T=β1γ1S=β1/γ1TSp


TSTS

TS

γ2= =0

@whuber Ah tôi thấy nhầm lẫn. Xin vui lòng xem một bài viết được đề nghị từ MacKinnon ở đây .
AdamO

TSTTT

2

Có các giải pháp tham số cho từng biện pháp thống kê sẽ là mong muốn, nhưng đồng thời, khá phi thực tế. Bootstrap có ích trong những trường hợp đó. Ví dụ nảy sinh trong đầu tôi liên quan đến sự khác biệt giữa hai phương tiện phân phối chi phí rất sai lệch. Trong trường hợp đó, thử nghiệm t hai mẫu cổ điển không đáp ứng các yêu cầu lý thuyết của nó (các phân phối mà các mẫu được điều tra được rút ra chắc chắn rời khỏi tính quy tắc, do đuôi phải dài) và các thử nghiệm không tham số thiếu truyền đạt thông tin hữu ích cho những người ra quyết định (những người thường không quan tâm đến hàng ngũ). Một giải pháp khả thi để tránh bị đình trệ trong vấn đề đó là thử nghiệm bootstrap hai mẫu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.