Đây có lẽ là một lời giải thích kỹ thuật hơn nhằm vào những người hiểu một số thống kê và toán học (ít nhất là tính toán). Đây là một slide từ một khóa học về bootstraps khảo sát mà tôi đã dạy trước đây:
Một số giải thích là cần thiết, tất nhiên. là thủ tục để lấy số liệu thống kê từ dữ liệu hiện có (hoặc, chính xác về mặt kỹ thuật, một chức năng từ hàm phân phối đến số thực, ví dụ: giá trị trung bình là , trong đó đối với hàm phân phối mẫu , được hiểu là một khối điểm tại một điểm mẫu). Trong dân số, ký hiệu là , ứng dụng của đưa ra tham số quan tâm . Bây giờ, chúng tôi đã lấy một mẫu (mũi tên đầu tiên ở trên cùng) và có hàm phân phối theo kinh nghiệm - chúng tôi áp dụng cho nó để lấy ước tínhTE[X]=∫xdFFn()dFF()TθFn()Tθ^n . Chúng ta tự hỏi bao xa từ ? Phân phối mà số lượng ngẫu nhiên có thể có xung quanh gì? Đây là dấu hỏi ở phía dưới bên trái của sơ đồ và đây là câu hỏi mà bootstrap cố gắng trả lời. Để nói lại quan điểm của gung, đây không phải là câu hỏi về dân số, mà là câu hỏi về một thống kê cụ thể và phân phối của nó.θθ^nθ
Nếu chúng tôi có thể lặp lại quy trình lấy mẫu, chúng tôi có thể nhận được phân phối đó và tìm hiểu thêm. Vâng, đó thường là vượt quá khả năng của chúng tôi. Tuy nhiên, nếu
- Fn đủ gần với , theo nghĩa phù hợp vàF
- ánh xạ đủ mượt, nghĩa là, nếu chúng ta có độ lệch nhỏ so với , kết quả sẽ được ánh xạ tới các số gần với ,TF()θ
chúng ta có thể hy vọng rằng thủ tục bootstrap sẽ hoạt động. Cụ thể, chúng tôi giả vờ rằng phân phối của chúng tôi là chứ không phải và cùng với đó chúng tôi có thể giải trí tất cả các mẫu có thể - và sẽ có các mẫu như vậy, chỉ thực tế cho . Tôi xin nhắc lại lần nữa: bootstrap hoạt động để tạo phân phối lấy mẫu của xung quanh tham số "true" và chúng tôi hy vọng rằng với hai điều kiện trên, phân phối lấy mẫu này là thông tin về phân phối lấy mẫu của quanh :Fn()F()nnn≤5θ^∗nθ^nθ^nθ
θ^∗n to θ^n is like θ^n to θ
Bây giờ, thay vì chỉ đi một chiều dọc theo mũi tên và mất một số thông tin / độ chính xác dọc theo các mũi tên này, chúng ta có thể quay lại và nói điều gì đó về sự biến đổi của xung quanh .θ^∗nθ^n
Các điều kiện trên được đánh vần là kỹ thuật tối đa trong cuốn sách của Hall (1991) . Sự hiểu biết về tính toán mà tôi đã nói có thể được yêu cầu như một điều kiện tiên quyết để nhìn chằm chằm vào slide này là giả định thứ hai liên quan đến độ trơn tru: trong ngôn ngữ chính thức hơn, chức năng phải có đạo hàm yếu. Tất nhiên, điều kiện đầu tiên là một tuyên bố tiệm cận: mẫu của bạn càng lớn, càng gần với ; và khoảng cách từ đến phải có cùng độ lớn với khoảng cách từ đến . Những điều kiện này có thể phá vỡ, và chúng phá vỡTFnFθ^∗nθ^nθ^nθtrong một số tình huống thực tế với số liệu kỳ lạ đủ và / hoặc các chương trình lấy mẫu mà không tạo ra sự phân bố thực nghiệm mà là đủ gần để .F
Bây giờ, 1000 mẫu đó, hoặc bất cứ con số ma thuật nào có thể đến từ đâu? Nó xuất phát từ việc chúng tôi không thể vẽ tất cả các mẫu , vì vậy chúng tôi chỉ lấy một tập hợp con ngẫu nhiên trong số này. Mũi tên "mô phỏng" đúng nhất nêu lên một xấp xỉ khác mà chúng tôi đang thực hiện để có được phân phối xung quanh , và đó là để nói rằng phân phối mô phỏng Monte Carlo của chúng tôi về là một xấp xỉ đủ tốt để phân phối bootstrap hoàn chỉnh của xung quanh .nnθ^nθθ^(∗r)nθ^∗nθ^n