Bootstrapping được thực hiện để có được một bức tranh mạnh mẽ hơn về phân phối lấy mẫu so với giả định của lý thuyết mẫu lớn. Khi bạn bootstrap, thực sự không có giới hạn về số lượng 'bootamples' bạn dùng; trong thực tế, bạn có được một xấp xỉ tốt hơn cho phân phối lấy mẫu càng nhiều mẫu giày bạn lấy. Người ta thường sử dụng bootamples, mặc dù không có gì kỳ diệu về con số đó. Hơn nữa, bạn không chạy thử nghiệm trên bốt; bạn có ước tính phân phối lấy mẫu - sử dụng trực tiếp. Đây là một thuật toán:B=10,000
- lấy một mẫu khởi động của một bộ dữ liệu bằng cách lấy mẫu quan sát khởi động với sự thay thế. [Liên quan đến các ý kiến dưới đây, một câu hỏi có liên quan là cái gì tạo thành một 'quan sát khởi động' hợp lệ để sử dụng cho mẫu giày của bạn. Trong thực tế, có một số cách tiếp cận hợp pháp; Tôi sẽ đề cập đến hai yếu tố mạnh mẽ và cho phép bạn phản ánh cấu trúc dữ liệu của mình: Khi bạn có dữ liệu quan sát (nghĩa là dữ liệu được lấy mẫu trên tất cả các kích thước, quan sát khởi động có thể là một n-tuple được đặt hàng (ví dụ: một hàng từ tập dữ liệu của bạn). Ví dụ: nếu bạn có một biến dự đoán và một biến trả lời, bạn sẽ lấy mẫu n 1 ( x , y )n1n1 (x,y)đặt hàng cặp. Mặt khác, khi làm việc với dữ liệu thực nghiệm, các giá trị biến dự báo không được lấy mẫu, nhưng các đơn vị thử nghiệm được gán cho các mức dự định của từng biến dự đoán. Trong trường hợp như thế này, bạn có thể lấy mẫu y từ bên trong mỗi cấp độ j của biến dự đoán, sau đó ghép các y đó với giá trị tương ứng của cấp dự đoán đó. Theo cách này, bạn sẽ không lấy mẫu trên X. ]n1j yjyX
- phù hợp với mô hình hồi quy của bạn và lưu trữ các ước tính độ dốc (gọi nó là beta 1 )β^1
- lấy một mẫu khởi động của các dữ liệu khác bằng cách lấy mẫu quan sát khởi động với sự thay thến2
- phù hợp với mô hình hồi quy khác và lưu trữ các ước tính độ dốc (gọi nó là beta 2 )β^2
- hình thành một số liệu thống kê từ hai dự toán (gợi ý: sử dụng sự khác biệt dốc β 1 - β 2 )β^1−β^2
- lưu trữ số liệu thống kê và kết xuất các thông tin khác để không lãng phí bộ nhớ
- lặp lại các bước 1 - 6, lầnB=10,000
- sắp xếp phân phối lấy mẫu bootstrapping của chênh lệch độ dốc
- tính% của bsd trùng với 0 (cái nào nhỏ hơn,% bên phải% hoặc% bên trái%)
- nhân tỷ lệ này với 2
Logic của thuật toán này dưới dạng kiểm tra thống kê về cơ bản tương tự như các kiểm tra cổ điển (ví dụ: kiểm tra t) nhưng bạn không giả sử dữ liệu hoặc phân phối lấy mẫu có phân phối cụ thể. (Ví dụ: bạn không giả định tính quy tắc.) Giả định chính bạn đang thực hiện là dữ liệu của bạn là đại diện cho dân số mà bạn đã lấy mẫu từ / muốn tổng quát hóa. Đó là, phân phối mẫu tương tự như phân phối dân số. Lưu ý rằng, nếu dữ liệu của bạn không liên quan đến dân số mà bạn quan tâm, bạn sẽ không gặp may.
Một số người lo lắng về việc sử dụng, ví dụ: mô hình hồi quy để xác định độ dốc nếu bạn không sẵn sàng sử dụng tính quy tắc. Tuy nhiên, mối quan tâm này là sai lầm. Định lý Gauss-Markov cho chúng ta biết rằng ước tính là không thiên vị (nghĩa là tập trung vào giá trị thực), vì vậy nó ổn. Việc thiếu tính quy phạm đơn giản có nghĩa là phân phối lấy mẫu thực sự có thể khác với phân phối theo lý thuyết, và do đó, giá trị p không hợp lệ. Thủ tục bootstrapping cung cấp cho bạn một cách để giải quyết vấn đề này.
Hai vấn đề khác liên quan đến bootstrapping: Nếu các giả định cổ điển được đáp ứng, bootstrapping kém hiệu quả hơn (nghĩa là có ít năng lượng hơn) so với thử nghiệm tham số. Thứ hai, bootstrapping hoạt động tốt nhất khi bạn khám phá gần trung tâm phân phối: phương tiện và trung bình là tốt, các phần tư không tốt, bootstrapping tối thiểu hoặc tối đa không nhất thiết phải thất bại. Về điểm đầu tiên, bạn có thể không cần bootstrap trong tình huống của mình; Về điểm thứ hai, bootstrapping độ dốc là hoàn toàn tốt.