Tôi đang làm theo hướng dẫn của bạn: "Tìm kiếm một câu trả lời rút ra từ các nguồn đáng tin cậy và / hoặc chính thức."
Bootstrap được phát minh bởi Brad Efron. Tôi nghĩ thật công bằng khi nói rằng anh ấy là một nhà thống kê nổi tiếng. Có một thực tế là ông là giáo sư tại Stanford. Tôi nghĩ rằng điều đó làm cho ý kiến của ông đáng tin cậy và chính thức.
Tôi tin rằng Suy luận thống kê thời đại máy tính của Efron và Hastie là cuốn sách mới nhất của ông và do đó sẽ phản ánh quan điểm hiện tại của ông. Từ P. 204 (11.7, ghi chú và chi tiết),
Khoảng tin cậy của Bootstrap không chính xác cũng không tối ưu, nhưng thay vào đó, mục tiêu là khả năng ứng dụng rộng rãi kết hợp với độ chính xác gần như chính xác.
Nếu bạn đọc Chương 11, "Khoảng tin cậy của Bootstrap", anh ta đưa ra 4 phương pháp tạo khoảng tin cậy của bootstrap. Phương pháp thứ hai trong số các phương pháp này là (11.2) Phương pháp phần trăm. Phương pháp thứ ba và thứ tư là các biến thể của phương pháp phân vị cố gắng sửa cho những gì Efron và Hastie mô tả là sai lệch trong khoảng tin cậy và theo đó họ đưa ra lời giải thích lý thuyết.
Bên cạnh đó, tôi không thể quyết định liệu có bất kỳ sự khác biệt nào giữa những gì người MIT gọi là CI bootstrap theo kinh nghiệm và CI phân vị không. Tôi có thể bị xì hơi não, nhưng tôi thấy phương pháp thực nghiệm là phương pháp phân vị sau khi trừ đi một lượng cố định. Điều đó sẽ không thay đổi gì cả. Tôi có thể đọc sai, nhưng tôi thực sự biết ơn nếu ai đó có thể giải thích cách tôi hiểu sai văn bản của họ.
Bất kể, cơ quan hàng đầu dường như không có vấn đề gì với CI của phần trăm. Tôi cũng nghĩ rằng bình luận của anh ấy trả lời những lời chỉ trích về bootstrap CI được một số người nhắc đến.
THÊM VÀO
[x∗¯−δ.1,x∗¯−δ.9][x∗¯−δ.9,x∗¯−δ.1]
δ=x¯−μx¯−μμ−x¯. Chỉ cần hợp lý. Hơn nữa, delta cho tập thứ hai là bootstrap phần trăm bị ô uế!. Efron sử dụng phân vị và tôi nghĩ rằng việc phân phối các phương tiện thực tế nên là cơ bản nhất. Tôi sẽ nói thêm rằng ngoài Efron và Hastie và bài báo Efron năm 1979 được đề cập trong một câu trả lời khác, Efron đã viết một cuốn sách về bootstrap vào năm 1982. Trong cả 3 nguồn đều có đề cập đến bootstrap phần trăm, nhưng tôi không thấy đề cập đến điều gì người MIT gọi bootstrap theo kinh nghiệm. Ngoài ra, tôi khá chắc chắn rằng họ tính toán phần trăm bootstrap không chính xác. Dưới đây là một cuốn sổ tay R tôi đã viết.
Các cam kết về tham chiếu MIT Trước tiên, hãy lấy dữ liệu MIT vào R. Tôi đã thực hiện một thao tác cắt và dán đơn giản các mẫu bootstrap của họ và lưu nó vào boot.txt.
Ẩn orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") có nghĩa là = as.numeric (lapply (boot , mean)) # lapply tạo danh sách, không phải vectơ. Tôi sử dụng nó LUÔN cho khung dữ liệu. mu = mean (orig.boot) del = sort (mean - mu) # sự khác biệt mu có nghĩa là del Và hơn nữa
Ẩn mu - sort (del) [3] mu - sort (del) [18] Vì vậy, chúng tôi nhận được cùng một câu trả lời họ làm. Đặc biệt tôi có cùng phân vị thứ 10 và 90. Tôi muốn chỉ ra rằng phạm vi từ phân vị thứ 10 đến phân vị thứ 90 là 3. Điều này giống như MIT đã làm.
Phương tiện của tôi là gì?
Ẩn có nghĩa là sắp xếp (có nghĩa) Tôi đang nhận được các phương tiện khác nhau. Điểm quan trọng - lần thứ 10 và 90 của tôi có nghĩa là 38,9 và 41,9. Đây là những gì tôi mong đợi. Chúng khác nhau bởi vì tôi đang xem xét khoảng cách từ 40.3, vì vậy tôi đang đảo ngược thứ tự trừ. Lưu ý rằng 40.3-38.9 = 1.4 (và 40.3 - 1.6 = 38.7). Vì vậy, những gì họ gọi là bootstrap phần trăm cung cấp một phân phối phụ thuộc vào phương tiện thực tế chúng ta nhận được chứ không phải sự khác biệt.
Điểm then chốt Bootstrap theo kinh nghiệm và bootstrap phần trăm sẽ khác nhau ở chỗ cái mà họ gọi là bootstrap theo kinh nghiệm sẽ là khoảng [x ∗ ¯ .1, x ∗ ¯ − .9] [x ∗ ¯ − .1, x ∗ ¯ .9] trong khi bootstrap phần trăm sẽ có khoảng tin cậy [x ∗ .9, x ∗ ¯ .1] [x ∗ ¯ − .9, x ∗ ¯ − .1 ]. Thông thường họ không nên khác nhau. Tôi có suy nghĩ của mình về việc tôi muốn, nhưng tôi không phải là nguồn chính xác mà OP yêu cầu. Thử nghiệm suy nghĩ- nên hai hội tụ nếu kích thước mẫu tăng. Lưu ý rằng có 210210 mẫu có thể có kích thước 10. Chúng ta sẽ không biến mất, nhưng nếu chúng ta lấy 2000 mẫu - một kích thước thường được coi là đủ.
Ẩn set.seed (1234) # sao chép boot.2k = matrix (NA, 10,2000) cho (i trong c (1: 2000)) {boot.2k [, i] = sample (orig.boot, 10, thay thế = T)} mu2k = sort (áp dụng (boot.2k, 2, trung bình)) Hãy xem mu2k
Ẩn tóm tắt (mu2k) có nghĩa là (mu2k) -mu2k [200] có nghĩa là (mu2k) - mu2k [1801] Và các giá trị thực tế-
Ẩn mu2k [200] mu2k [1801] Vì vậy, bây giờ cái mà MIT gọi là bootstrap theo kinh nghiệm cho khoảng tin cậy 80% là [, 40.3 -1.87,40.3 +1.64] hoặc [38.43,41.94] và phân phối phần trăm xấu của chúng mang lại [38,5, 42]. Điều này tất nhiên có ý nghĩa bởi vì luật của số lượng lớn sẽ nói trong trường hợp này rằng phân phối nên hội tụ thành một phân phối bình thường. Ngẫu nhiên, điều này được thảo luận trong Efron và Hastie. Phương pháp đầu tiên họ đưa ra để tính khoảng thời gian bootstrap là sử dụng mu = / - 1,96 sd. Như họ chỉ ra, đối với cỡ mẫu đủ lớn, nó sẽ hoạt động. Sau đó, họ đưa ra một ví dụ mà n = 2000 không đủ lớn để có được sự phân phối dữ liệu xấp xỉ bình thường.
Kết luận Trước tiên, tôi muốn nêu nguyên tắc tôi sử dụng để quyết định các câu hỏi về cách đặt tên. Đây là bữa tiệc của tôi Tôi có thể khóc nếu tôi muốn. Trong khi ban đầu được Petula Clark phát âm, tôi nghĩ nó cũng áp dụng các cấu trúc đặt tên. Vì vậy, với sự tôn trọng chân thành với MIT, tôi nghĩ rằng Bradley Efron xứng đáng đặt tên cho các phương pháp bootstrapping khác nhau theo ý muốn. Anh ấy làm nghề gì ? Tôi không thể tìm thấy đề cập nào trong Efron của 'bootstrap theo kinh nghiệm', chỉ là phần trăm. Vì vậy, tôi sẽ không đồng ý với Rice, MIT, et al. Tôi cũng sẽ chỉ ra rằng theo luật số lượng lớn, như được sử dụng trong bài giảng MIT, theo kinh nghiệm và tỷ lệ phần trăm sẽ hội tụ đến cùng một số. Theo sở thích của tôi, bootstrap phần trăm là trực quan, hợp lý và những gì người phát minh ra bootstrap có trong tâm trí. Tôi sẽ nói thêm rằng tôi đã dành thời gian để làm điều này chỉ vì sự chỉnh sửa của riêng tôi chứ không phải bất cứ điều gì khác. Đặc biệt, Tôi đã không viết Efron, đó có lẽ là điều OP nên làm. Tôi sẵn sàng nhất để đứng chính xác.