Vấn đề với các mối tương quan trên các quan sát hoàn chỉnh theo cặp
Trong trường hợp bạn mô tả, vấn đề chính là giải thích. Vì bạn đang sử dụng các quan sát hoàn chỉnh theo cặp, nên bạn thực sự đang phân tích các bộ dữ liệu hơi khác nhau cho từng mối tương quan, tùy thuộc vào quan sát nào bị thiếu.
Hãy xem xét ví dụ sau:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Ba biến trong tập dữ liệu, a
, b
, và c
, mỗi người đều có một số giá trị bị mất tích. Nếu bạn tính toán tương quan trên các cặp biến ở đây, bạn sẽ chỉ có thể sử dụng các trường hợp không thiếu giá trị cho cả hai biến được đề cập. Trong trường hợp này, điều đó có nghĩa là bạn sẽ chỉ phân tích 3 trường hợp cuối cùng cho mối tương quan giữa a
và b
, chỉ ba trường hợp đầu tiên cho mối tương quan giữa b
và c
, v.v.
Thực tế là bạn đang phân tích các trường hợp hoàn toàn khác nhau khi bạn tính toán từng mối tương quan có nghĩa là mô hình kết quả của các mối tương quan có thể trông vô nghĩa. Xem:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Đây trông giống như một mâu thuẫn logic --- a
và b
đang mạnh mẽ tích cực tương quan, và b
và c
cũng liên quan chặt chẽ một cách tích cực, do đó bạn sẽ mong đợi a
và c
có mối tương quan tích cực là tốt, nhưng có thực sự là một sự kết hợp mạnh mẽ theo hướng ngược lại. Bạn có thể thấy tại sao nhiều nhà phân tích không thích điều đó.
Chỉnh sửa để bao gồm làm rõ hữu ích từ whuber:
Lưu ý rằng một phần của đối số phụ thuộc vào mối tương quan "mạnh" có thể có nghĩa là gì. Nó là khá nhất có thể cho a
và b
cũng như b
và c
để được "mạnh mẽ tích cực tương quan", trong khi tồn tại một "hiệp hội mạnh mẽ theo hướng ngược lại" giữa a
và c
, nhưng không phải là khá cực đoan như trong ví dụ này. Mấu chốt của vấn đề là ma trận tương quan ước tính (hoặc hiệp phương sai) có thể không xác định dương: đó là cách người ta nên định lượng "mạnh".
Vấn đề với loại thiếu
Bạn có thể tự nghĩ: "Chà, không ổn khi cứ cho rằng tập hợp con của các trường hợp tôi có sẵn cho mỗi mối tương quan theo ít nhiều cùng một mẫu tôi sẽ nhận được nếu tôi có dữ liệu hoàn chỉnh?" Và đúng, điều đó đúng --- về cơ bản không có gì sai khi tính toán mối tương quan trên một tập hợp con dữ liệu của bạn (mặc dù bạn mất độ chính xác và sức mạnh, tất nhiên, vì kích thước mẫu nhỏ hơn), miễn là dữ liệu có sẵn là ngẫu nhiên mẫu của tất cả các dữ liệu sẽ có ở đó nếu bạn không có bất kỳ thiếu sót nào.
Khi sự mất tích hoàn toàn ngẫu nhiên, đó gọi là MCAR (mất tích hoàn toàn ngẫu nhiên). Trong trường hợp đó, việc phân tích tập hợp con của dữ liệu không bị thiếu sẽ không làm sai lệch một cách có hệ thống các kết quả của bạn và sẽ không thể (nhưng không thể) có được kiểu mẫu tương quan hạt dẻ mà tôi đã trình bày trong ví dụ trên.
Khi sự thiếu sót của bạn có hệ thống theo một cách nào đó (thường được viết tắt là MAR hoặc NI, mô tả hai loại thiếu sót hệ thống khác nhau) thì bạn có nhiều vấn đề nghiêm trọng hơn, cả về khả năng giới thiệu sai lệch trong tính toán và về khả năng khái quát của bạn kết quả cho dân số quan tâm (vì mẫu bạn đang phân tích không phải là mẫu ngẫu nhiên trong dân số, ngay cả khi dữ liệu đầy đủ của bạn sẽ có).
Có rất nhiều các nguồn lực tốt nhất để tìm hiểu về thiếu dữ liệu và làm thế nào để đối phó với nó, nhưng đề nghị của tôi là Rubin:
một cổ điển ,
và một bài báo gần đây