Nếu các cặp dự đoán đáp ứng đã được lấy từ một quần thể bằng mẫu ngẫu nhiên, thì có thể sử dụng sơ đồ lấy mẫu trường hợp / ngẫu nhiên-x / lần đầu tiên của bạn. Nếu các yếu tố dự đoán được kiểm soát hoặc các giá trị của các yếu tố dự đoán được đặt bởi người thử nghiệm, bạn có thể xem xét sử dụng sơ đồ lấy mẫu dư / dựa trên mô hình / cố định-x / giây của bạn.
Làm thế nào để hai khác nhau? Giới thiệu về bootstrap với các ứng dụng trong R của Davison và Kounen có một cuộc thảo luận phù hợp với câu hỏi này (xem tr.9). Xem thêm mã R trong phụ lục này của John Fox , đặc biệt là các hàm boot.huber trên p.5 cho sơ đồ ngẫu nhiên x và boot.huber.fixed trên p.10 cho sơ đồ cố định x. Mặc dù trong các bài giảng của Shalizi , hai lược đồ được áp dụng cho các bộ dữ liệu / vấn đề khác nhau, phụ lục của Fox minh họa mức độ khác biệt giữa hai lược đồ thường có thể tạo ra.
Khi nào hai người có thể được dự kiến sẽ cung cấp kết quả gần giống nhau? Một tình huống là khi mô hình hồi quy được chỉ định chính xác, ví dụ, không có phi tuyến không được điều chỉnh và các giả định hồi quy thông thường (ví dụ: lỗi iid, không có ngoại lệ) được thỏa mãn. Xem chương 21 của cuốn sách của Fox (trong đó phần phụ lục đã nói ở trên với mã R gián tiếp thuộc về), đặc biệt là phần thảo luận ở trang 598 và bài tập 21.3. mang tên "Lấy mẫu ngẫu nhiên so với thay đổi trong hồi quy". Trích dẫn từ cuốn sách
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Bạn cũng sẽ học được từ cuộc thảo luận đó tại sao bootstrap cố định x mặc định giả định rằng dạng chức năng của mô hình là chính xác (mặc dù không có giả định nào được đưa ra về hình dạng phân phối lỗi).
Xem thêm slide 12 của bài nói chuyện này cho Hiệp hội chuyên gia tính toán ở Ireland của Derek Bain. Nó cũng có một minh họa về những gì nên được coi là "kết quả tương tự":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.