Câu trả lời được đưa ra bởi miura không hoàn toàn chính xác vì vậy tôi đang trả lời câu hỏi cũ này cho hậu thế:
(2). Đây là những điều rất khác nhau. Cdf thực nghiệm là một ước tính của CDF (phân phối) đã tạo ra dữ liệu. Chính xác, đó là CDF rời rạc gán xác suất cho mỗi điểm dữ liệu được quan sát, , với mỗi . Công cụ ước tính này hội tụ đến cdf thật: gần như chắc chắn cho mỗiF ( x ) = 11/nF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x (trên thực tế là đồng nhất).
Phân phối mẫu của thống kê thay vào đó là phân phối thống kê mà bạn mong đợi sẽ thấy trong thử nghiệm lặp lại. Nghĩa là, bạn thực hiện thử nghiệm của mình một lần và thu thập dữ liệu . là một hàm của dữ liệu của bạn: . Bây giờ, giả sử bạn lặp lại thử nghiệm và thu thập dữ liệu . Tính toán lại T trên mẫu mới cho . Nếu chúng tôi thu thập được 100 mẫu chúng tôi sẽ có 100 dự toán . Những quan sát này của tạo thành phân phối mẫu củaX 1 , ... , X n T T = T ( X 1 , ... , X n ) X ' 1 , ... , X ' n T ' = T ( X ' 1 , ... , X ' n ) T T TTX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT. Đó là một phân phối thực sự. Khi số lượng thí nghiệm chuyển sang vô cùng, giá trị trung bình của nó sẽ hội tụ đến và phương sai của nó với .V a r ( T )E(T)Var(T)
Nói chung tất nhiên chúng tôi không thí nghiệm lặp lại như thế này, chúng tôi chỉ bao giờ nhìn thấy một ví dụ của . Việc tìm ra phương sai của là gì từ một quan sát đơn lẻ là rất khó nếu bạn không biết hàm xác suất cơ bản của a prori. Bootstrapping là một cách để ước tính rằng sự phân bố lấy mẫu của bằng cách chạy nhân tạo "thử nghiệm mới" trên đó để tính toán trường hợp mới của . Mỗi mẫu mới thực sự chỉ là một mẫu từ dữ liệu gốc. Rằng điều này cung cấp cho bạn nhiều thông tin hơn bạn có trong dữ liệu gốc là bí ẩn và hoàn toàn tuyệt vời.T T T T TTTTTT
(1). Bạn đúng - bạn sẽ không làm điều này. Tác giả đang cố gắng thúc đẩy bootstrap tham số bằng cách mô tả nó như là "bạn sẽ làm gì nếu bạn biết phân phối" nhưng thay thế một công cụ ước tính rất tốt của hàm phân phối - cdf theo kinh nghiệm.
Ví dụ: giả sử bạn biết rằng thống kê kiểm tra của bạn thường được phân phối với giá trị trung bình bằng 0, phương sai một. Làm thế nào bạn sẽ ước tính phân phối mẫu của ? Chà, vì bạn biết phân phối, một cách ngớ ngẩn và dư thừa để ước tính phân phối lấy mẫu là sử dụng R để tạo ra 10.000 biến ngẫu nhiên tiêu chuẩn thông thường, sau đó lấy trung bình và phương sai mẫu của chúng, và sử dụng chúng làm ước tính của chúng tôi về trung bình và phương sai của sự phân bố lấy mẫu của .T T TTTT
Nếu chúng ta không biết các thông số của , nhưng chúng ta biết rằng nó được phân phối bình thường, thay vào đó chúng ta có thể tạo ra 10.000 mẫu từ cdf theo kinh nghiệm, tính trên mỗi mẫu, sau đó lấy mẫu có nghĩa và phương sai của những 10.000 s, và sử dụng chúng như ước tính của chúng ta về giá trị kỳ vọng và phương sai của . Vì cdf theo kinh nghiệm là một công cụ ước tính tốt của cdf thật, nên các tham số mẫu sẽ hội tụ thành các tham số thực. Đây là bootstrap tham số: bạn đặt ra một mô hình trên thống kê bạn muốn ước tính. Mô hình được lập chỉ mục bởi một tham số, ví dụ , mà bạn ước tính từ lấy mẫu lặp lại từ ecdf.TTTT(μ,σ)
(3). Bootstrap không theo tỷ lệ thậm chí không yêu cầu bạn phải biết một tiên nghiệm mà thường được phân phối. Thay vào đó, bạn chỉ cần vẽ các mẫu lặp lại từ ecdf và tính trên mỗi mẫu. Sau khi bạn đã rút ra 10.000 mẫu hoặc hơn và tính 10.000 s, bạn có thể vẽ biểu đồ cho các ước tính của mình. Đây là một hình dung về phân phối mẫu củaTTTT. Bootstrap không theo tỷ lệ sẽ không cho bạn biết rằng phân phối lấy mẫu là bình thường hoặc gamma, v.v., nhưng nó cho phép bạn ước tính phân phối lấy mẫu (thường) chính xác khi cần. Nó tạo ra ít giả định hơn và cung cấp ít thông tin hơn bootstrap tham số. Nó ít chính xác hơn khi giả định tham số là đúng nhưng chính xác hơn khi nó sai. Cái nào bạn sử dụng trong mỗi tình huống bạn gặp phải phụ thuộc hoàn toàn vào bối cảnh. Phải thừa nhận rằng nhiều người đã quen thuộc với bootstrap không theo tỷ lệ nhưng thường thì một giả định tham số yếu làm cho một mô hình hoàn toàn không thể chấp nhận được để ước tính, điều này thật đáng yêu.