Ưu và nhược điểm của bootstrapping


11

Tôi mới tìm hiểu về khái niệm bootstrapping và một câu hỏi ngây thơ xuất hiện: Nếu chúng ta luôn có thể tạo ra nhiều mẫu bootstrap của dữ liệu của mình, tại sao lại phải lấy thêm dữ liệu "thực"?

Tôi nghĩ rằng tôi có một lời giải thích, xin vui lòng cho tôi biết nếu tôi đúng: Tôi nghĩ rằng quá trình bootstrapping làm giảm phương sai, NHƯNG nếu dữ liệu ban đầu của tôi là BIASED, hơn là tôi bị mắc kẹt với độ sai lệch thấp và độ lệch cao, cho dù có bao nhiêu bản sao Tôi đang dùng.


4
bootstrapping không tạo ra nhiều thông tin hơn dữ liệu đã có (và mô hình) ... dữ liệu thực tế có thể cung cấp cho bạn nhiều thông tin hơn
Glen_b -Reinstate Monica

2
Tôi đồng ý với Glen_b rằng nó không tạo thêm thông tin nhưng tôi không đồng ý rằng nó có thể cung cấp cho bạn ít thông tin hơn. Như tôi đã nói trong câu trả lời của mình, nó không phải lúc nào cũng hoạt động tốt nhưng điều đó có thể nói về bất kỳ phương pháp thống kê nào.
Michael R. Chernick

1
Câu hỏi thú vị - có lẽ một khái niệm liên quan là tại sao bootstrap hoạt động? . Hiểu điều này sẽ giúp biết khi nào nó hữu ích. Tôi nghĩ về bootstrap như là một sự cải tiến so với xấp xỉ bình thường để phân phối lấy mẫu. Nó có thể xử lý các chuyến khởi hành từ quy tắc không quá cực đoan. Một tính năng hấp dẫn khác là bạn không cần phải thực hiện công việc phân tích / đại số - bản sao thực hiện điều này cho bạn.
xác suất

Câu trả lời:


15

Bootstrap là một phương pháp thực hiện suy luận theo cách không yêu cầu giả định một dạng tham số cho phân bố dân số. Nó không đối xử với mẫu ban đầu như thể đó là dân số ngay cả những người liên quan đến việc lấy mẫu với sự thay thế từ mẫu ban đầu. Nó giả định rằng lấy mẫu với sự thay thế từ mẫu ban đầu có kích thước n bắt chước lấy một mẫu có kích thước n từ dân số lớn hơn. Nó cũng có nhiều biến thể như m out of n bootstrap, lấy mẫu lại m thời gian từ một mẫu có kích thước n trong đó m <n. Các thuộc tính tốt đẹp của bootstrap phụ thuộc vào lý thuyết tiệm cận. Như những người khác đã đề cập, bootstrap không chứa nhiều thông tin về dân số hơn những gì được đưa ra trong mẫu ban đầu. Vì lý do đó, đôi khi nó không hoạt động tốt trong các mẫu nhỏ.

Trong cuốn sách "Phương pháp khởi động: Hướng dẫn học viên" phiên bản thứ hai do Wiley xuất bản năm 2007, tôi chỉ ra các tình huống trong đó bootstrap có thể thất bại. Điều này bao gồm phân phối không có các khoảnh khắc hữu hạn, kích thước mẫu nhỏ, ước tính các giá trị cực trị từ phân phối và ước lượng phương sai trong lấy mẫu khảo sát trong đó kích thước dân số là N và lấy mẫu n lớn. Trong một số trường hợp, các biến thể của bootstrap có thể hoạt động tốt hơn so với cách tiếp cận ban đầu. Điều này xảy ra với m bootstrap trong một số ứng dụng Trong trường hợp ước tính tỷ lệ lỗi trong phân tích phân biệt, bootstrap 632 là một cải tiến so với các phương thức khác bao gồm các phương thức bootstrap khác ..

Một lý do để sử dụng nó là đôi khi bạn không thể dựa vào các giả định tham số và trong một số trường hợp, bootstrap hoạt động tốt hơn các phương thức không tham số khác. Nó có thể được áp dụng cho rất nhiều vấn đề bao gồm hồi quy phi tuyến, phân loại, ước lượng khoảng tin cậy, ước lượng sai lệch, điều chỉnh giá trị p và phân tích chuỗi thời gian để đặt tên cho một số vấn đề.


6

Một mẫu bootstrap chỉ có thể cho bạn biết những điều về mẫu ban đầu và sẽ không cung cấp cho bạn bất kỳ thông tin mới nào về dân số thực. Nó chỉ đơn giản là một phương pháp không tham số để xây dựng các khoảng tin cậy và tương tự.

Nếu bạn muốn có thêm thông tin về dân số, bạn phải thu thập thêm dữ liệu từ dân số.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.