Tôi đã giải thích hai điều này nhiều lần. Họ tiếp tục nấu não của tôi. Thiếu không ngẫu nhiên có ý nghĩa, và Mất hoàn toàn ngẫu nhiên có ý nghĩa ... đó là Mất tích ngẫu nhiên không nhiều.
Điều gì dẫn đến dữ liệu sẽ là MAR nhưng không phải MCAR?
Tôi đã giải thích hai điều này nhiều lần. Họ tiếp tục nấu não của tôi. Thiếu không ngẫu nhiên có ý nghĩa, và Mất hoàn toàn ngẫu nhiên có ý nghĩa ... đó là Mất tích ngẫu nhiên không nhiều.
Điều gì dẫn đến dữ liệu sẽ là MAR nhưng không phải MCAR?
Câu trả lời:
Thiếu ngẫu nhiên (MAR) có nghĩa là sự thiếu sót có thể được giải thích bằng các biến mà bạn có thông tin đầy đủ. Đó không phải là một giả định có thể kiểm chứng, nhưng có những trường hợp hợp lý so với không.
Ví dụ, lấy các cuộc thăm dò dư luận chính trị. Nhiều người từ chối trả lời. Nếu bạn cho rằng lý do mọi người từ chối trả lời hoàn toàn dựa trên nhân khẩu học và nếu bạn có những nhân khẩu học đó trên mỗi người, thì dữ liệu là MAR. Được biết, một số lý do tại sao mọi người từ chối trả lời có thể dựa trên nhân khẩu học (ví dụ, những người có thu nhập thấp và cao thường ít trả lời hơn những người ở giữa), nhưng thực sự không có cách nào để biết liệu điều đó có là lời giải thích đầy đủ.
Vì vậy, câu hỏi trở thành "nó có đủ đầy không?". Thông thường, các phương pháp như nhiều công việc imputation tốt hơn so với các phương pháp khác miễn là dữ liệu không rất mất tích không một cách ngẫu nhiên.
Amelia
, mi
, và mice
. Những điểm tương đồng và khác biệt là hấp dẫn. ( Amelia
của over impute
nó khá thú vị.)
Tôi không chắc liệu điều này có đúng không, nhưng cách tôi đã cố gắng hiểu nó như thể có một ma trận 2x2 khả năng không đối xứng. Cái gì đó như:
Pattern / Data Explains Pattern
Yes No
Yes MAR MNAR
No -- MCAR
Đó là, nếu có một mẫu cho sự thiếu hụt của một biến và dữ liệu chúng ta không thể giải thích thì chúng ta có MNAR, nhưng nếu dữ liệu chúng ta có (tức là các biến khác trong tập dữ liệu của chúng ta) có thể giải thích chúng ta có MAR. Nếu không có mô hình cho sự thiếu sót, đó là MCAR.
Tôi có thể rời khỏi đây. Ngoài ra, điều này để mở định nghĩa của "Mẫu" và "Dữ liệu giải thích". Tôi nghĩ "Dữ liệu giải thích" có nghĩa là các biến khác trong tập dữ liệu của bạn giải thích nó, nhưng tôi tin rằng quy trình của bạn cũng có thể giải thích nó (ví dụ: một ví dụ hay trong một luồng khác là nếu bạn có ba biến đo lường đo lường cùng một thứ và thủ tục là nếu hai phép đo đầu tiên không đồng ý với quá nhiều bạn thực hiện phép đo thứ ba).
Điều này có đủ chính xác cho trực giác, CV?
Tôi cũng đang vật lộn để nắm bắt sự khác biệt, vì vậy có lẽ một số ví dụ có thể giúp đỡ.
MCAR : Thiếu hoàn toàn ngẫu nhiên , điều này thật tuyệt. Nó có nghĩa là sự không đáp ứng là hoàn toàn ngẫu nhiên. Vì vậy, khảo sát của bạn không thiên vị.
MAR : Mất tích ngẫu nhiên , tình huống tồi tệ hơn. Hãy tưởng tượng bạn đang yêu cầu IQ và bạn có nhiều người tham gia nữ hơn nam giới. May mắn cho bạn, IQ không liên quan đến giới tính, vì vậy bạn có thể kiểm soát giới tính (áp dụng trọng số) để giảm sai lệch.
MNAR : Không thiếu một cách ngẫu nhiên , xấu. Xem xét có khảo sát cho mức thu nhập. Và một lần nữa, bạn có nhiều nữ hơn nam tham gia. Trong trường hợp này, đây là một vấn đề, bởi vì mức thu nhập có liên quan đến giới tính. Do đó, kết quả của bạn sẽ bị sai lệch. Không dễ dàng để thoát khỏi.
Bạn thấy, đó là mối quan hệ "tam giác" giữa biến mục tiêu (Y, chẳng hạn như thu nhập), biến phụ (X, chẳng hạn như tuổi) và hành vi phản hồi (R, nhóm phản hồi). Nếu X chỉ liên quan đến R, good-ish (MAR). Nếu có mối quan hệ giữa X và R và X và Y, thì nó xấu (MNAR).