Cách kết hợp khoảng tin cậy cho một thành phần phương sai của mô hình hiệu ứng hỗn hợp khi sử dụng nhiều mức độ

Logic của nhiều lần cắt (MI) là để tính các giá trị bị thiếu không chỉ một lần mà nhiều lần (thường là M = 5) lần, dẫn đến M bộ dữ liệu đã hoàn thành. Các bộ dữ liệu hoàn thành M sau đó được phân tích với các phương pháp dữ liệu hoàn chỉnh, theo đó các ước tính M và các lỗi tiêu chuẩn của chúng được kết hợp bằng các công thức của Rubin để có được ước tính "tổng thể" và sai số chuẩn của nó.

Tuyệt vời cho đến nay, nhưng tôi không chắc chắn làm thế nào để áp dụng công thức này khi các thành phần phương sai của mô hình hiệu ứng hỗn hợp được quan tâm. Phân phối lấy mẫu của một thành phần phương sai là không đối xứng - do đó, khoảng tin cậy tương ứng không thể được đưa ra ở dạng "ước tính ± 1,96 * se (ước tính)" điển hình. Vì lý do này, các gói R lme4 và nlme thậm chí không cung cấp các lỗi tiêu chuẩn của các thành phần phương sai, mà chỉ cung cấp các khoảng tin cậy.

Do đó, chúng ta có thể thực hiện MI trên tập dữ liệu và sau đó nhận được khoảng tin cậy M trên mỗi thành phần phương sai sau khi khớp cùng một mô hình hiệu ứng hỗn hợp trên bộ dữ liệu đã hoàn thành M. Câu hỏi là làm thế nào để kết hợp các khoảng M này thành một khoảng tin cậy "tổng thể".

Tôi đoán điều này là có thể - các tác giả của một bài báo (yucel & demirtas (2010) Tác động của các hiệu ứng ngẫu nhiên không bình thường lên suy luận của MI) dường như đã làm được, nhưng họ không giải thích chính xác làm thế nào.

Bất kỳ lời khuyên sẽ có nhiều nghĩa vụ!

Chúc mừng, Rok

— Rok
nguồn

Một câu hỏi rất thú vị. Tôi mong muốn được nghe từ kết quả của bạn, nếu bạn muốn chia sẻ chúng ...

— chl

@chl: Tôi có thể gửi cho bạn các bảng với kết quả khi tôi hoàn thành, nhưng tôi sẽ không phát minh ra bất cứ điều gì mới thực sự. Cho đến nay tôi chỉ dự định so sánh MI theo mô hình cắt ngang hai cấp (pan gói R) với MI theo mô hình bình thường đơn giản (bỏ qua cấu trúc hai cấp, định mức gói R) và xóa theo cách nghe. Trong các cỡ mẫu khác nhau, các giá trị của thành phần phương sai, v.v ... Điều này là đủ cho hội thảo (Tôi là nghiên cứu sinh), nhưng không chính xác. Nếu bạn có bất kỳ ý tưởng nào về cách "jazz up" nghiên cứu mô phỏng, tôi rất muốn nghe.

— Rok

Một điều khác: tôi không chắc chắn rằng một giải pháp phân tích thích hợp cho vấn đề này thậm chí còn tồn tại. Tôi đã xem xét một số tài liệu bổ sung, nhưng vấn đề này được nhìn khắp nơi một cách tao nhã. Tôi cũng nhận thấy rằng yucel & demirtas (trong bài viết tôi đã đề cập, trang 798) viết: Từ Bộ dữ liệu được nhân rộng này đã được sử dụng để ước tính mô hình [bằng cách sử dụng gói R lme4 dẫn đến 10 bộ (beta, se (beta) ), (sigma_b, se (sigma_b)) sau đó được kết hợp bằng cách sử dụng quy tắc kết hợp MI được xác định bởi Rubin.,

— Rok

Có vẻ như họ đã sử dụng một số loại phím tắt để ước tính SE của thành phần phương sai (tất nhiên là không phù hợp, vì CI không đối xứng) và sau đó áp dụng công thức cổ điển.

— Rok

Ok, thx cho điều đó. Bạn có thể đưa ý kiến của bạn vào một câu trả lời để nó có thể được bình chọn không?

— chl

Câu trả lời:

Đây là một câu hỏi hay! Không chắc đây là một câu trả lời đầy đủ, tuy nhiên, tôi bỏ vài dòng này trong trường hợp nó có ích.

Dường như Yucel và Demirtas (2010) đề cập đến một bài báo cũ hơn được xuất bản trong JCGS, Chiến lược tính toán cho các mô hình hiệu ứng hỗn hợp tuyến tính đa biến với các giá trị bị thiếu , sử dụng phương pháp tính điểm EM / Fisher lai để đưa ra các ước tính dựa trên khả năng của các VC . Nó đã được thực hiện trong gói R mlmmm . Tôi không biết, tuy nhiên, nếu nó tạo ra các TCTD.

Mặt khác, tôi chắc chắn sẽ kiểm tra chương trình WinBUGS , phần lớn được sử dụng cho các mô hình đa cấp, bao gồm cả những người có dữ liệu bị thiếu. Tôi dường như nhớ nó sẽ chỉ hoạt động nếu MV của bạn nằm trong biến phản hồi, không phải trong các đồng biến vì chúng ta thường phải chỉ định các phân phối có điều kiện đầy đủ (nếu MV có trong các biến độc lập, điều đó có nghĩa là chúng ta phải đưa ra trước các X bị thiếu và đó sẽ được coi là một tham số được ước tính bởi WinBUGS ...). Nó dường như cũng áp dụng cho R, nếu tôi đề cập đến chủ đề sau đây về r-sig-trộn, dữ liệu bị thiếu trong lme, lmer, PROC MIXED . Ngoài ra, nó có thể đáng xem phần mềm MLwiN .

— chl
nguồn

Cảm ơn rất nhiều cho trả lời của bạn! Về nguyên tắc, tôi cũng quan tâm đến cách giải quyết một vấn đề cụ thể như vấn đề tôi đã mô tả (do đó, nhờ vào mẹo WinBUGS). Nhưng hiện tại tôi đang cố gắng thực hiện một nghiên cứu mô phỏng cho một bài hội thảo trong đó tôi sẽ kiểm tra hiệu suất (tỷ lệ bao phủ, v.v.) của MI theo mô hình sai chính tả. Tôi cho rằng tôi sẽ quên đi các thành phần phương sai nếu tôi không thể tìm ra giải pháp và tập trung vào các hiệu ứng cố định, nhưng thật khó chịu khi từ bỏ.

— Rok

@Rok Ý tưởng tuyệt vời cho việc mô phỏng! Tôi sẽ mong đợi vấn đề đặc biệt này. Tôi cho rằng bạn đã tìm kiếm trên thư hỗn hợp r-sig và cuốn sách của Gelman về hồi quy đa cấp ...

— chl

Tôi nhìn bây giờ, xe tăng cho các tài liệu tham khảo! Thật không may, không có gì trên MI trong kho lưu trữ hỗn hợp r-sig; và Gelman chỉ đưa ra công thức cơ bản về cách kết hợp các suy luận từ MI khi chúng ta có sự khác biệt trong và giữa các lần đưa ra (§25.7).

— Rok

Nhận xét lặp đi lặp lại từ phía trên:

Tôi không chắc chắn rằng một giải pháp phân tích thích hợp cho vấn đề này thậm chí còn tồn tại. Tôi đã xem xét một số tài liệu bổ sung, nhưng vấn đề này bị bỏ qua một cách tao nhã ở mọi nơi. Tôi cũng nhận thấy rằng Yucel & Demirtas (trong bài viết tôi đã đề cập, trang 798) viết:

Các bộ dữ liệu được nhân lên này đã được sử dụng để ước tính mô hình [ lme4Mạnh ] bằng cách sử dụng gói R dẫn đến 10 bộ (beta, se (beta)), (sigma_b, se (sigma_b)) sau đó được kết hợp bằng quy tắc kết hợp MI được xác định bởi Cha vao.

— Rok
nguồn

Tôi đánh giá cao bạn đã trở lại để chia sẻ kinh nghiệm của bạn với vấn đề này. Thật không may, tôi không có giải pháp thực sự nhưng có thể những gợi ý khác sẽ được đưa ra.

— chl

"Bỏ qua một cách tao nhã" ... đó là một cụm từ hữu ích để xem xét tài liệu nếu tôi từng nghe.

— Matt Parker

Tuyên bố miễn trừ trách nhiệm: Ý tưởng này có thể là ngu ngốc và tôi sẽ không giả vờ hiểu ý nghĩa lý thuyết của những gì tôi đang đề xuất.

" Gợi ý " : Tại sao bạn không đơn giản áp đặt 100 bộ dữ liệu (tôi biết bạn thường làm 5) bộ dữ liệu, chạy lme4 hoặc nmle, lấy khoảng tin cậy (bạn có 100 trong số chúng) và sau đó:

Sử dụng độ rộng khoảng nhỏ (khoảng phạm vi / 1000 hoặc thứ gì đó), kiểm tra phạm vi các giá trị có thể có của từng tham số và chỉ bao gồm các khoảng nhỏ xuất hiện trong ít nhất 95 trong số 100 TCTD. Sau đó, bạn sẽ có một "trung bình" Monte Carlo của khoảng tin cậy của bạn.

Tôi chắc chắn có vấn đề (hoặc có lẽ là vấn đề lý thuyết) với phương pháp này. Ví dụ, bạn có thể kết thúc với một bộ rời nhau khoảng. Điều này có thể hoặc không thể là một điều xấu tùy thuộc vào lĩnh vực của bạn. Lưu ý rằng điều này chỉ có thể nếu bạn có ít nhất hai khoảng tin cậy hoàn toàn không chồng chéo , được phân tách bằng một vùng có độ che phủ dưới 95%.

Bạn cũng có thể xem xét một cái gì đó gần gũi hơn với cách xử lý dữ liệu bị thiếu của Bayes để có được một khu vực đáng tin cậy sau, điều này chắc chắn sẽ được hình thành tốt hơn và hỗ trợ nhiều hơn về mặt lý thuyết so với đề xuất đặc biệt của tôi.

— M. Tibbits
nguồn