Tại sao không báo cáo ý nghĩa của phân phối bootstrap?


29

Khi một bootstraps một tham số để nhận được lỗi tiêu chuẩn, chúng ta sẽ có một phân phối của tham số. Tại sao chúng ta không sử dụng giá trị trung bình của phân phối đó làm kết quả hoặc ước tính cho tham số mà chúng ta đang cố gắng nhận được? Không nên phân phối gần đúng với thực tế? Vì vậy, chúng tôi sẽ có được một ước tính tốt về giá trị "thực"? Tuy nhiên, chúng tôi báo cáo các tham số ban đầu chúng tôi nhận được từ mẫu của chúng tôi. Tại sao vậy?

Cảm ơn

Câu trả lời:


24

Bởi vì thống kê bootstrapping là một sự trừu tượng hóa nữa từ tham số dân số của bạn. Bạn có tham số dân số, thống kê mẫu của bạn và chỉ trên lớp thứ ba bạn có bootstrap. Giá trị trung bình bootstrapping không phải là công cụ ước tính tốt hơn cho tham số dân số của bạn. Nó chỉ là một ước tính của một ước tính.

Như phân phối bootstrap chứa tất cả các trung tâm kết hợp bootstrapped thể xung quanh thống kê mẫu giống như các trung tâm thống kê mẫu xung quanh tham số dân theo các điều kiện tương tự. Bài viết này ở đây tổng hợp những điều này khá độc đáo và đó là một trong những điều dễ nhất tôi có thể tìm thấy. Để biết thêm bằng chứng chi tiết, hãy làm theo các giấy tờ mà họ đang tham khảo. Ví dụ đáng chú ý là Efron (1979)Singh (1981)n

Sự phân bố bootstrapped của sau sự phân bố của θ - θ mà làm cho nó hữu ích trong việc ước lượng sai số chuẩn của một mẫu dự toán, trong việc xây dựng khoảng tin cậy, và trong việc ước lượng sai lệch của một tham số. Nó không làm cho nó trở thành một công cụ ước tính tốt hơn cho tham số của dân số. Nó chỉ cung cấp một sự thay thế đôi khi tốt hơn cho phân phối tham số thông thường cho phân phối của thống kê.θBθ^θ^θ


13

Có ít nhất một trường hợp người ta sử dụng giá trị trung bình của phân phối bootstrap: bagging (viết tắt của tổng hợp bootstrap ).

Ý tưởng cơ bản là nếu công cụ ước tính của bạn rất nhạy cảm với nhiễu loạn trong dữ liệu (nghĩa là công cụ ước tính có phương sai cao và độ lệch thấp), thì bạn có thể lấy trung bình rất nhiều mẫu bootstrap để giảm số lượng ví dụ cụ thể.

Trang tôi liên kết để chỉ ra rằng điều này giới thiệu một số sai lệch trong ước tính của bạn, đó là lý do tại sao giá trị trung bình mẫu thường sẽ có ý nghĩa hơn là lấy trung bình các mẫu bootstrap của bạn. Nhưng nếu bạn có một cái gì đó giống như cây quyết định hoặc phân loại hàng xóm gần nhất có thể thay đổi hoàn toàn để đáp ứng với những thay đổi nhỏ trong dữ liệu, thì sự thiên vị này có thể không phải là mối quan tâm lớn như quá mức.


1
yθ

Tôi thường thấy việc đóng gói được sử dụng để giảm phương sai của các ước tính cho phản hồi (nghĩa là độ nhạy của nó đối với các dao động trong dữ liệu). Các mô hình được đóng gói phổ biến nhất (ví dụ như cây) thường không có các tham số được xác định rõ sẽ dễ dàng so sánh giữa các mẫu bootstrap.
David J. Harris

Cảm ơn, đó chính xác là những gì tôi nghĩ. Đối với tôi, việc đóng bao dường như không có ý nghĩa gì đối với bất cứ điều gì ngoài ước tính của một phản hồi, vì vậy nó bị hạn chế theo nghĩa đó.
Momo

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.