Phương pháp Bootstrap. Tại sao lại lấy mẫu lại với thay thế thay vì thay thế ngẫu nhiên?


11

Phương pháp bootstrap đã thấy một sự khuếch tán lớn trong những năm qua, tôi cũng sử dụng nó rất nhiều, đặc biệt là vì lý do đằng sau khá trực quan.

Nhưng đó là một điều tôi không hiểu. Tại sao Efron chọn thực hiện lấy mẫu lại bằng thay thế thay vì chỉ đơn giản là lấy mẫu bằng cách ngẫu nhiên bao gồm hoặc loại trừ các quan sát đơn lẻ?

Tôi nghĩ rằng việc lấy mẫu ngẫu nhiên có một chất lượng rất tốt, đó là lý tưởng cho tình huống thực tế trong cuộc sống mà chúng ta có trong các nghiên cứu là một tập hợp con của giả thuyết. Tôi không thấy lợi thế của việc quan sát nhân lên trong quá trình lấy mẫu lại. Trong một bối cảnh thực tế, không có sự quan sát nào giống với cái khác, đặc biệt là đối với các tình huống đa biến phức tạp.


3
lấy mẫu lại với việc lấy mẫu lại được thực hiện bởi vì đó là điều đúng đắn, được đưa ra cho mô hình. Mô hình đằng sau bootstrap là sử dụng khả năng tối đa không theo tỷ lệ để ước tính hàm phân phối tích lũy, sau đó lấy mẫu các quan sát độc lập từ hàm phân phối tích lũy ước tính. Hãy suy nghĩ về nó --- theo cách khác, có được bằng cách lấy mẫu bằng cách thay thế từ mẫu ban đầu.
kjetil b halvorsen

Câu trả lời:


10

Một cách để hiểu sự lựa chọn này là nghĩ về mẫu trong tay là đại diện tốt nhất mà bạn có của dân số cơ bản. Bạn có thể không có toàn bộ dân số để lấy mẫu từ nữa, nhưng bạn có đại diện cụ thể này của dân số. Một mẫu lại thực sự ngẫu nhiên từ đại diện dân số này có nghĩa là bạn phải lấy mẫu thay thế, nếu không việc lấy mẫu sau này của bạn sẽ phụ thuộc vào kết quả lấy mẫu ban đầu của bạn. Sự hiện diện của một trường hợp lặp lại trong một mẫu bootstrap cụ thể đại diện cho các thành viên của dân số cơ bản có các đặc điểm gần với các trường hợp lặp lại cụ thể đó. Cách tiếp cận bỏ qua một lần hoặc bỏ đi, như bạn đề xuất, cũng có thể được sử dụng nhưng đó là xác nhận chéo chứ không phải bootstrapping.

Tôi nghĩ rằng điều này khá nhiều chỉ cần đưa vào các từ khác nhận xét từ @kjetil_b_halvorsen


Tôi hiểu điểm. Làm cho các quan sát riêng lẻ trong một mẫu bootstrap độc lập với nhau. Trong văn học có tồn tại các phương pháp dựa trên mẫu phụ, xem Politis, Romano, Wolf. Việc sử dụng một tập hợp con cố định m của n, được chọn mà không thay thế. Làm thế nào để họ tránh những cạm bẫy mà bạn nói trước đây? Trong trường hợp của họ một lần nữa tôi không hiểu tại sao họ sử dụng mẫu phụ có kích thước cố định thay vì mẫu phụ ngẫu nhiên.
Bakaburg

2
Các phương thức lấy mẫu con đang cố gắng thực hiện một cái gì đó khác với bootstrap. Những phương pháp đó đang tìm cách chọn các tập hợp con ngẫu nhiên từ mẫu dữ liệu thay vì cố gắng mô phỏng một mẫu ngẫu nhiên mới từ dân số cơ bản . Không phải cái này hay cái kia là sai; chúng là những cách tiếp cận khác nhau có điểm mạnh và điểm yếu riêng.
EdM

Vì vậy, có lẽ tôi nên hỏi một câu hỏi mới liên quan đến sự khác biệt giữa hai phương pháp trong thống kê suy luận. cảm ơn!
Bakaburg

@Bakaburg xem câu hỏi này để có phần giới thiệu tuyệt vời về tài liệu về bootstrapping so với xác nhận chéo (đây là một kiểu mẫu phụ cụ thể).
EdM

@Bakaburg Phương pháp bootstrap đang mô phỏng bản vẽ độc lập lặp lại của các mẫu ngẫu nhiên có kích thước n (không phải là tập con nhỏ hơn n) từ dân số lớn hơn. Điều này có nghĩa là một mẫu ngẫu nhiên có thể hiểu được sẽ chứa một số lượng lớn các giá trị cực nhỏ hoặc cực lớn từ dân số cha mẹ thường được đại diện trong mẫu ban đầu của chúng tôi. Như EdM đã chỉ ra, việc lấy lại mẫu w / thay thế cho phép một quan sát mẫu duy nhất "đại diện" cho nhiều quan sát trong dân số có các giá trị tương tự - đó là một cách để có được sự phân bố xấp xỉ suôn sẻ.
RobertF
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.