Hai cách sử dụng bootstrap để ước tính khoảng tin cậy của các hệ số trong hồi quy


21

Tôi đang áp dụng mô hình tuyến tính cho dữ liệu của mình:

ytôi= =β0+β1xtôi+εtôi,εtôi~N(0,σ2).

Tôi muốn ước tính khoảng tin cậy (CI) của các hệ số ( , ) bằng phương pháp bootstrap. Có hai cách tôi có thể áp dụng phương thức bootstrap: β 1β0β1

  1. Mẫu dự đoán đáp ứng được ghép nối mẫu: Lấy mẫu lại ngẫu nhiên các cặp và áp dụng hồi quy tuyến tính cho mỗi lần chạy. Sau khi chạy, chúng tôi thu được một tập hợp các hệ số ước tính . Cuối cùng, tính toán lượng tử của . m ^ β j , j = 1 , . . . m ^ β jytôi-xtôimβj^,j= =1,...mβj^

  2. Lỗi mẫu: Trước tiên áp dụng hồi quy tuyến tính trên dữ liệu quan sát ban đầu, từ mô hình này, chúng tôi thu được và lỗi . Sau đó, lấy mẫu lại ngẫu nhiên lỗi và tính toán dữ liệu mới với và . Áp dụng một lần nữa hồi quy tuyến tính. Sau khi chạy, chúng tôi có được một tập hợp các hệ số ước tính {\ hat {\ beta_ {j}}}, j = 1, ..., m . Cuối cùng, tính toán lượng tử của {\ hat {\ beta_ {j}}} .βo^εtôiεtôi*βo^ytôi*= =βo^xtôi+εtôi*mβj^,j= =1,...,mβj^

Câu hỏi của tôi là:

  • Hai phương pháp này khác nhau như thế nào?
  • Theo giả định nào thì hai phương pháp này cho cùng một kết quả?

7
Cá nhân tôi sẽ không sử dụng như là cách tiếp cận mặc định mà thay vào đó sẽ đề xuất khoảng tin cậy bootstrap cơ bản. Xem p. 8 trong số www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Tôi đã thực hiện rất nhiều mô phỏng cho mô hình logistic nhị phân và đã thấy phạm vi bảo hiểm khoảng tin cậy tốt hơn bằng cách sử dụng bootstrap cơ bản so với sử dụng bootstrap phần trăm hoặc BCa.
Frank Harrell

1
@FrankHarrell để rõ ràng, bởi "cơ bản" bạn đang đề cập đến bootstrap không tham số?
ndoogan

3
(1) là khoảng tin cậy không phân tích phần trăm bootstrap, không phải là bootstrap cơ bản. Lưu ý rằng lấy mẫu từ là bootstrap vô điều kiện, không có giả định hơn so với bootstrap có điều kiện tương ứng với phần dư. (x,y)
Frank Harrell

2
Tôi thực sự không phải là một chuyên gia, nhưng như xa như tôi hiểu nó, 1) thường được gọi là "trường resampling" trong khi 2) được gọi là "resampling còn lại" hay "cố định " resampling. Sự lựa chọn cơ bản của phương pháp không ngụ ý phương pháp tính toán khoảng tin cậy sau thủ tục. Tôi đã nhận được thông tin này chủ yếu từ hướng dẫn của John Fox . Theo như tôi thấy, sau khi bootstrap, bạn có thể tính toán các CIs bootstrap cơ bản (ví dụ với in ). Hay tôi bỏ lỡ bất cứ điều gì ở đây? xboot.ci(my.boot, type="basic")R
COOLSerdash

2
Có, bạn có thể thực hiện bootstrapping cụm. Điều này được thực hiện trong R rms validatevà các calibratechức năng.
Frank Harrell

Câu trả lời:


9

Nếu các cặp dự đoán đáp ứng đã được lấy từ một quần thể bằng mẫu ngẫu nhiên, thì có thể sử dụng sơ đồ lấy mẫu trường hợp / ngẫu nhiên-x / lần đầu tiên của bạn. Nếu các yếu tố dự đoán được kiểm soát hoặc các giá trị của các yếu tố dự đoán được đặt bởi người thử nghiệm, bạn có thể xem xét sử dụng sơ đồ lấy mẫu dư / dựa trên mô hình / cố định-x / giây của bạn.

Làm thế nào để hai khác nhau? Giới thiệu về bootstrap với các ứng dụng trong R của Davison và Kounen có một cuộc thảo luận phù hợp với câu hỏi này (xem tr.9). Xem thêm mã R trong phụ lục này của John Fox , đặc biệt là các hàm boot.huber trên p.5 cho sơ đồ ngẫu nhiên x và boot.huber.fixed trên p.10 cho sơ đồ cố định x. Mặc dù trong các bài giảng của Shalizi , hai lược đồ được áp dụng cho các bộ dữ liệu / vấn đề khác nhau, phụ lục của Fox minh họa mức độ khác biệt giữa hai lược đồ thường có thể tạo ra.

Khi nào hai người có thể được dự kiến ​​sẽ cung cấp kết quả gần giống nhau? Một tình huống là khi mô hình hồi quy được chỉ định chính xác, ví dụ, không có phi tuyến không được điều chỉnh và các giả định hồi quy thông thường (ví dụ: lỗi iid, không có ngoại lệ) được thỏa mãn. Xem chương 21 của cuốn sách của Fox (trong đó phần phụ lục đã nói ở trên với mã R gián tiếp thuộc về), đặc biệt là phần thảo luận ở trang 598 và bài tập 21.3. mang tên "Lấy mẫu ngẫu nhiên so với thay đổi trong hồi quy". Trích dẫn từ cuốn sách

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Bạn cũng sẽ học được từ cuộc thảo luận đó tại sao bootstrap cố định x mặc định giả định rằng dạng chức năng của mô hình là chính xác (mặc dù không có giả định nào được đưa ra về hình dạng phân phối lỗi).

Xem thêm slide 12 của bài nói chuyện này cho Hiệp hội chuyên gia tính toán ở Ireland của Derek Bain. Nó cũng có một minh họa về những gì nên được coi là "kết quả tương tự":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.