Tại sao bootstrapping phần dư từ một mô hình hiệu ứng hỗn hợp mang lại khoảng tin cậy chống bảo thủ?


11

Tôi thường xử lý dữ liệu trong đó nhiều cá nhân được đo nhiều lần trong mỗi 2 điều kiện trở lên. Gần đây tôi đã chơi với mô hình hiệu ứng hỗn hợp để đánh giá bằng chứng cho sự khác biệt giữa các điều kiện, mô hình hóa individualnhư một hiệu ứng ngẫu nhiên. Để hình dung sự không chắc chắn về các dự đoán từ mô hình đó, tôi đã sử dụng bootstrapping, trong đó trên mỗi lần lặp của bootstrap cả cá nhân và quan sát trong điều kiện bên trong cá nhân đều được lấy mẫu thay thế và mô hình hiệu ứng hỗn hợp mới được tính từ dự đoán đó thu được. Điều này hoạt động tốt đối với dữ liệu giả định lỗi gaussian, nhưng khi dữ liệu là nhị thức, bootstrapping có thể mất một thời gian rất dài vì mỗi lần lặp phải tính toán một mô hình hiệu ứng hỗn hợp nhị thức tương đối tính toán.

Tôi nghĩ rằng tôi có thể sử dụng các phần dư từ mô hình ban đầu sau đó sử dụng các phần dư này thay vì dữ liệu thô trong bootstrapping, điều này sẽ cho phép tôi tính toán mô hình hiệu ứng hỗn hợp gaussian trên mỗi lần lặp của bootstrap. Việc thêm các dự đoán ban đầu từ mô hình nhị thức của dữ liệu thô vào các dự đoán đã được khởi động từ phần dư sẽ mang lại 95% CI cho các dự đoán ban đầu.

Tuy nhiên, gần đây tôi đã mã hóa một đánh giá đơn giản về phương pháp này, mô hình hóa không có sự khác biệt giữa hai điều kiện và tính toán tỷ lệ số lần khoảng tin cậy 95% không bao gồm 0 và tôi thấy rằng quy trình khởi động dựa trên phần dư ở trên mang lại khả năng chống khá mạnh khoảng thời gian bảo thủ (họ loại trừ không quá 5% thời gian). Hơn nữa, sau đó tôi đã mã hóa (cùng một liên kết như trước) một đánh giá tương tự về phương pháp này khi áp dụng cho dữ liệu ban đầu là gaussian và nó đã thu được các TCTD chống bảo thủ tương tự (mặc dù không cực đoan). Bất cứ ý tưởng tại sao điều này có thể được?


hm, tôi chỉ nhận thấy rằng trong mã tạo dữ liệu cho cả hai trường hợp tôi đã không thực sự thêm bất kỳ biến thiên giữa các cá nhân nào mà người ta thường quan tâm đến việc loại bỏ bằng cách mô hình hóa các cá nhân dưới dạng hiệu ứng ngẫu nhiên. Tôi sẽ xem nếu thêm sự thay đổi này sẽ thay đổi kết quả; trở lại sau vài giờ ...
Mike Lawrence

Nếu tôi nhớ chính xác, bootstrap làm cho ước tính gần với ước tính dân số thực sự. Nó không nói bất cứ điều gì về khoảng tin cậy. (x Kesar Singh, On chính xác tiệm cận của bootstrap Efron Ann người thống kê, năm 1981, 9, 1187-1195...)
suncoolsu

@me: Tôi có thể xác nhận rằng việc bổ sung tính biến thiên giữa các cá nhân trong chức năng tạo dữ liệu không cải thiện hiệu suất của bootstrap. Tôi đã tải lên mã mà tôi đã sử dụng để xác nhận mã này với ý chính được liên kết trong bài viết gốc.
Mike Lawrence

@suncoolsu: Tôi khá chắc chắn rằng khoảng tin cậy của bootstrapping đã được chuẩn trong một thời gian khá dài. Efron đã đề cập đến chúng trong bài báo năm 1978 mô tả quy trình bootstrapping nói chung, sau đó ông đã có một loạt các bài báo trong thập niên 80 và 90 về các chỉnh sửa của thủ tục bootstrap để có khoảng tin cậy chính xác hơn (hiệu chỉnh sai lệch, tích lũy, sinh viên, v.v.).
Mike Lawrence

1
Bạn đã đọc bài báo sau đây của Morris: "BLUP không phải là tốt nhất khi nói đến bootstrapping". Nó có thể liên quan đến công việc của bạn. liên kết
julieth

Câu trả lời:


7

Hãy nhớ tất cả các khoảng tin cậy của bootstrap chỉ là không có triệu chứng ở mức độ tin cậy đã nêu. Ngoài ra còn có một loạt các phương pháp có thể để chọn khoảng tin cậy của bootstrap Phương pháp phần trăm của Efron, phương pháp phần trăm của Hall, bootstrap đôi, bootstrap t, bootstrap nghiêng, BC, BCa và có thể một vài thứ nữa. Bạn đã không cho chúng tôi biết bạn sử dụng phương pháp nào. Bài viết của Schenker trong JASA 1985 đã chỉ ra rằng đối với các phân phối chi bình phương nhất định, khoảng tin cậy bootstrap của BC được bảo vệ theo tỷ lệ phần trăm được quảng cáo. Trong các vấn đề kích thước mẫu nhỏ vấn đề này có thể nghiêm trọng. LaBudde và tôi có hai bài báo cho thấy làm thế nào trong các mẫu nhỏ, ngay cả BCa cũng có thể có độ bao phủ rất kém khi ước tính phương sai từ phân phối logic và tồn tại một vấn đề tương tự để kiểm tra sự bằng nhau của hai phương sai. Đây chỉ là một vấn đề đơn giản. Tôi hy vọng điều tương tự có thể xảy ra với phần dư từ các mô hình hỗn hợp. Trong cuốn sách mới của chúng tôi "Giới thiệu về các phương pháp Bootstrap với các ứng dụng cho R" được xuất bản bởi Wiley vào năm 2011, chúng tôi đề cập đến chủ đề này trong Phần 3.7 và cung cấp các tài liệu tham khảo. Điều ngạc nhiên là phương pháp phân vị đôi khi làm tốt hơn phương pháp BCa chính xác bậc cao hơn, khi kích thước mẫu nhỏ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.