Tại sao không luôn luôn sử dụng các CIs bootstrap?


12

Tôi đã tự hỏi làm thế nào các CIs bootstrap (và BCa trong barticular) thực hiện trên dữ liệu phân phối bình thường. Dường như có rất nhiều công việc kiểm tra hiệu suất của chúng trên các loại phân phối khác nhau, nhưng không thể tìm thấy bất cứ điều gì trên dữ liệu phân phối thông thường. Vì có vẻ như là một điều rõ ràng để nghiên cứu đầu tiên, tôi cho rằng các bài báo đã quá cũ.

Tôi đã thực hiện một số mô phỏng Monte Carlo bằng gói khởi động R và thấy các TCTD bootstrap phù hợp với các TCTD chính xác, mặc dù đối với các mẫu nhỏ (N <20), chúng có xu hướng tự do hơn một chút (các TCTD nhỏ hơn). Đối với các mẫu đủ lớn, về cơ bản chúng giống nhau.

Điều này khiến tôi tự hỏi liệu có lý do chính đáng nào để không luôn luôn sử dụng bootstrapping. Với những khó khăn trong việc đánh giá xem một phân phối có bình thường hay không, và nhiều cạm bẫy đằng sau điều này, có vẻ hợp lý khi không quyết định và báo cáo các CIs bootstrap bất kể phân phối. Tôi hiểu động cơ của việc không sử dụng các thử nghiệm phi tham số một cách có hệ thống, vì chúng có ít năng lượng hơn, nhưng các mô phỏng của tôi cho tôi biết đây không phải là trường hợp của các TCTD bootstrap. Chúng thậm chí còn nhỏ hơn.

Một câu hỏi tương tự khiến tôi băn khoăn là tại sao không phải lúc nào cũng sử dụng trung vị làm thước đo của xu hướng trung tâm. Mọi người thường khuyên nên sử dụng nó để mô tả dữ liệu không được phân phối thông thường, nhưng vì trung vị giống như giá trị trung bình của dữ liệu được phân phối thông thường, tại sao lại tạo ra sự khác biệt? Nó có vẻ khá có lợi nếu chúng ta có thể thoát khỏi các thủ tục để quyết định xem một phân phối có bình thường hay không.

Tôi rất tò mò về suy nghĩ của bạn về những vấn đề này, và liệu chúng đã được thảo luận trước đây chưa. Tài liệu tham khảo sẽ được đánh giá cao.

Cảm ơn!

Pierre


Xem câu hỏi của tôi ở đây liên quan đến trung bình và trung bình: stats.stackexchange.com/questions/96371/NH
Alexis

Đối với nhiều vấn đề, việc lấy mẫu lại là không thể tính toán được. Ví dụ: nếu bạn chỉ muốn tính toán các TCTD cho một ma trận 3D lớn hoặc trong một chuỗi thời gian dài.
jona

Câu trả lời:


4

Có lợi khi xem xét động lực cho khoảng BCa và cơ chế của nó (tức là cái gọi là "các yếu tố hiệu chỉnh"). Các khoảng BCa là một trong những khía cạnh quan trọng nhất của bootstrap vì chúng là trường hợp tổng quát hơn của Khoảng phần trăm Bootstrap (tức là khoảng tin cậy chỉ dựa trên bản phân phối bootstrap).

Cụ thể, hãy xem mối quan hệ giữa các khoảng BCa và Khoảng phần trăm Bootstrap: khi điều chỉnh tăng tốc ("hệ số hiệu chỉnh" đầu tiên) và độ lệch ("hệ số hiệu chỉnh" thứ hai) đều bằng 0, sau đó các khoảng BCa trở lại khoảng phần trăm Bootstrap điển hình.

Tôi không nghĩ rằng đó là một ý tưởng tốt để LUÔN LUÔN sử dụng bootstrapping. Bootstrapping là một kỹ thuật mạnh mẽ có nhiều cơ chế khác nhau (ví dụ: khoảng tin cậy và có các biến thể khác nhau của bootstrap cho các loại vấn đề khác nhau như bootstrap hoang dã khi có sự không đồng nhất) để điều chỉnh cho các vấn đề khác nhau (ví dụ: không quy tắc) ), nhưng nó phụ thuộc vào một giả định quan trọng: dữ liệu đại diện chính xác cho dân số thực sự.

Giả định này, mặc dù về bản chất đơn giản, có thể khó xác minh, đặc biệt là trong bối cảnh cỡ mẫu nhỏ (có thể mặc dù một mẫu nhỏ là sự phản ánh chính xác của dân số thực sự!). Nếu mẫu ban đầu phân phối bootstrap (và do đó tất cả các kết quả tiếp theo từ nó) không chính xác đầy đủ, thì kết quả của bạn (và do đó quyết định của bạn dựa trên các kết quả đó) sẽ bị sai sót.

KẾT LUẬN: Có rất nhiều sự mơ hồ với bootstrap và bạn nên thận trọng trước khi áp dụng nó.


2
"Nếu mẫu ban đầu phân phối bootstrap (và do đó tất cả các kết quả tiếp theo từ nó) không chính xác đầy đủ, thì kết quả của bạn (và do đó quyết định của bạn dựa trên các kết quả đó) sẽ bị sai sót." -> nhưng CI bootstrap có hoạt động kém hơn so với giải pháp thay thế phân tích trong những trường hợp này không?
jona

3
Giả định rằng dữ liệu đại diện đầy đủ cho dân số không chỉ dành riêng cho bootstrapping: nó liên quan đến thống kê nói chung, vì vậy nếu dữ liệu không đầy đủ thì mọi suy luận, suy luận bootstrap hay nói cách khác, đã được đưa ra là sai lệch (giả định sai phần kết luận!).
mmmmmmmmmm

4
Vì vậy, sự cảnh báo này không hướng vào bootstrap, mà là về suy luận và không phải là một lập luận chống lại việc sử dụng bootstrap so với phương thức khác, mà là đặt niềm tin tuyệt đối vào các phương thức có thể đọc được. Tôi không thấy nó có liên quan như thế nào trong bối cảnh này.
jona

Xin lỗi, hơi muộn về chủ đề này .... @ jona: điều này có liên quan không vì bootstrapping sẽ tiếp tục khuếch đại mẫu? Vì vậy, nếu mẫu của bạn là một sự hiểu sai đáng tiếc về dân số thì việc sử dụng bootstrapping sẽ khiến bạn càng rời xa trung tâm dân số? Đó không phải là một đối số tiềm năng chống lại việc dựa vào bootstrapping một cách có hệ thống sao?
sisdog
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.