Gần đây đã nghiên cứu bootstrap, tôi đã đưa ra một câu hỏi về khái niệm vẫn còn đánh đố tôi:
Bạn có một dân số và bạn muốn biết một thuộc tính dân số, tức là , nơi tôi sử dụng P để đại diện cho dân số. Đây \ theta có thể là trung bình dân số ví dụ. Thông thường bạn không thể lấy tất cả dữ liệu từ dân số. Vì vậy, bạn vẽ một mẫu X có kích thước N từ dân số. Giả sử bạn có mẫu iid cho đơn giản. Sau đó, bạn có được công cụ ước tính của mình \ hat {\ theta} = g (X) . Bạn muốn sử dụng \ hat {\ theta} để suy luận về \ theta , vì vậy bạn muốn biết tính biến đổi của \ hat {\ theta} .
Đầu tiên, có một phân phối lấy mẫu thực sự của . Về mặt khái niệm, bạn có thể vẽ nhiều mẫu (mỗi mẫu có kích thước ) từ dân số. Mỗi lần bạn sẽ nhận ra vì mỗi lần bạn sẽ có một mẫu khác nhau. Cuối cùng, bạn sẽ có thể khôi phục phân phối thực sự của . Ok, đây ít nhất là điểm chuẩn khái niệm để ước tính phân phối của . Hãy để tôi nói lại: mục tiêu cuối cùng là sử dụng nhiều phương pháp khác nhau để ước tính hoặc xấp xỉ phân phối thực sự của .
Bây giờ, đây là câu hỏi. Thông thường, bạn chỉ có một mẫu chứa điểm dữ liệu. Sau đó, bạn lấy mẫu lại từ mẫu này nhiều lần và bạn sẽ đưa ra bản phân phối bootstrap của . Câu hỏi của tôi là: phân phối bootstrap này gần với phân phối lấy mẫu thực sự của như thế nào? Có cách nào để định lượng nó?




trong đó các lhs so sánh cdfvới cdfchoquan sát và rhs vẽbản sao của lhs, cho 250 mẫu khác nhau , để đo lường sự thay đổi của xấp xỉ cdf. Trong ví dụ này tôi biết sự thật và do đó tôi có thể mô phỏng từ sự thật để đánh giá sự biến đổi. Trong một tình huống thực tế, tôi không biếtvà do đó tôi phải bắt đầu từđể tạo ra một biểu đồ tương tự.