Tỷ lệ thiếu và nhiều lần cắt cụt


8

Có giới hạn nào ít được chấp nhận nhất khi sử dụng nhiều lần cắt ngang (MI) không?

Ví dụ: tôi có thể sử dụng MI nếu các giá trị bị thiếu trong một biến là 20% các trường hợp trong khi và các biến khác có các giá trị bị thiếu nhưng không ở mức cao như vậy không?


Tôi sẽ không xem xét 20% rất cao, vì vậy tôi chắc chắn câu trả lời cho câu hỏi thứ hai của bạn là có, mặc dù tôi không có một lời biện minh nghiêm ngặt nào. Cảm giác ruột của tôi là giới hạn duy nhất là điều đó ngăn cản thuật toán hoạt động. Tôi mơ hồ nhớ thấy một cái bàn trong cuốn sách của Rubin cho thấy kết quả cho tỷ lệ mất tích rất cao. Liệu nó có đáng (trái ngược với giá trị) khi thực hiện MI với tỷ lệ mất tích rất cao hay không là một câu hỏi khác.
đánh dấu999

1
Rất nhiều thứ sẽ phụ thuộc vào mức độ bạn có thể cho rằng những lần bỏ lỡ của mình bị mất hoàn toàn một cách ngẫu nhiên. Nếu có tỷ lệ bỏ lỡ cao và chúng không bị thiếu một cách ngẫu nhiên, bạn có thể nhận được các ước tính sai lệch cho việc buộc tội. Bởi vì nó phải được thực hiện trên các trường hợp có trong dữ liệu (theo định nghĩa), trong trường hợp có sai lệch hệ thống trong các trường hợp thiếu, các trường hợp hiện tại có thể không có nhiều thông tin từ góc độ chính xác.
Michelle

@ mark999 - Cảm ơn câu trả lời. Khi tỷ lệ thiếu cho một biến có thể được coi là cao? Về câu hỏi cuối cùng của bạn, bạn có câu trả lời nào không?
Nick

@Michelle - Cảm ơn bạn. May mắn là giả thuyết MAR khá hợp lý (và thậm chí MCAR có thể được coi là hợp lý)
Nick

@Nick: Tôi không biết những gì nên được coi là tỷ lệ rất cao và tôi không nghĩ cần phải đặt một con số cụ thể cho nó. Tôi không có câu trả lời cho câu hỏi cuối cùng.
đánh dấu999

Câu trả lời:


3

Từ các bình luận, bạn tự tin rằng bạn trong tình huống MAR hoặc MCAR. Sau đó, nhiều lần cắt bỏ ít nhất là hợp lý. Vì vậy, mất tích bao nhiêu là dễ dàng? Nghĩ theo cách này:

Về cơ bản, nhiều lần cắt ngang làm cho tất cả các ước tính tham số mô hình của bạn ít chắc chắn hơn như là một hàm của độ chính xác mà dữ liệu bị thiếu có thể dự đoán được với mô hình cắt bỏ của bạn, điều này sẽ phụ thuộc, trong số những điều khác, vào mức độ thiếu cần xử lý và số lượng các thuật ngữ bạn sử dụng.

Mất bao nhiêu 'quá nhiều' do đó phụ thuộc vào mức độ chênh lệch / không chắc chắn được thêm vào mà bạn sẵn sàng đưa ra. Một đại lượng hữu ích cho bạn có thể là hiệu quả tương đối ( ) của phân tích MI. Điều này phụ thuộc vào 'phần thông tin bị thiếu' (không phải là tỷ lệ thiếu đơn giản), thường được gọi là và số lần cắt bỏ, thường được gọi là , như .λ m R E 1 / ( 1 + λ / m )REλmRE1/(1+λ/m)

Thay vì tạo ra các định nghĩa về thông tin bị thiếu, v.v. ở đây, bạn có thể chỉ cần đọc Câu hỏi thường gặp về MI , điều này đặt mọi thứ rất rõ ràng. Từ đó bạn sẽ biết liệu bạn có muốn giải quyết các nguồn gốc: Rubin, v.v.

Thực tế, có lẽ bạn chỉ nên thử phân tích thôi miên và xem nó hoạt động ra sao.


liên kết FAQ bị hỏng. Bất kỳ cơ hội bạn có thể có một hiện tại? (có vẻ hữu ích)
drstevok

Thêm. Không chắc nó chính thức như thế nào.
liên hợp chiến

1

Bạn có thể tìm thấy

Rubin, Donald B. và Nathaniel Schenker. 1986. Từ chối nhiều lần để ước lượng khoảng thời gian từ các mẫu ngẫu nhiên đơn giản với phản hồi không đáng tin cậy. Tạp chí của Hiệp hội Thống kê Hoa Kỳ 81 (394): 366 Chân374.

Hữu ích.


1
Bạn có thể vui lòng tóm tắt trong vài từ khuyến nghị của Rubin để câu trả lời này được khép kín không?
chl

Tôi sẽ phải có được điều đó. Tôi cũng đã nghe Joe Shaffer của bang Pennsylvania nói (gần đây hơn) rằng MI rất tốt trừ khi dữ liệu là "THẬT SỰ không đáng kính"
Peter Flom

@Peter Flom: Tuyên bố của Shaffer rất thú vị - bạn có biết chi tiết nào không?
đánh dấu

1
@Peter Flom: Cảm ơn (Tôi đã hiểu nhầm "gần đây hơn" của bạn là "gần đây").
đánh dấu999

1
@Peter Flom. Typo về phần tôi, tôi sợ. Phần còn lại của bình luận của tôi có ý nghĩa nếu bạn đặt cái 'không' bị thiếu ở phía trước!
liên hợp chiến
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.