Có một vấn đề nghiêm trọng với việc bỏ các quan sát với các giá trị bị thiếu khi tính toán ma trận tương quan?


12

Tôi có bộ dữ liệu khổng lồ này với 2500 biến và thích 142 quan sát.

Tôi muốn chạy một mối tương quan giữa Biến X và phần còn lại của các biến. Nhưng đối với nhiều cột, có những mục bị thiếu.

Tôi đã cố gắng thực hiện điều này trong R bằng cách sử dụng đối số "cặp đôi hoàn thành" ( use=pairwise.complete.obsvà nó đã đưa ra một loạt các mối tương quan. Nhưng sau đó, một người nào đó trên StackOverflow đã đăng một liên kết đến bài viết này http://bwlewis.github.io/covar/missing.html và nó làm cho phương thức "hoàn thành cặp đôi" trong R trông không thể sử dụng được.

Câu hỏi của tôi: Làm thế nào để tôi biết khi nào thì thích hợp để sử dụng tùy chọn "hoàn thành cặp đôi"?

Tôi use = complete.obstrở lại no complete element pairs, vì vậy nếu bạn có thể giải thích điều đó có nghĩa là gì, điều đó sẽ rất tuyệt.


4
Một câu chuyện kinh điển cần biết là câu chuyện về Abraham Wald và câu hỏi về việc thêm áo giáp cho máy bay trong Thế chiến II . Điều quan trọng là có một số hiểu biết về lý do tại sao dữ liệu của bạn bị thiếu.
Matthew Gunn

Câu trả lời:


11

Vấn đề với các mối tương quan trên các quan sát hoàn chỉnh theo cặp

Trong trường hợp bạn mô tả, vấn đề chính là giải thích. Vì bạn đang sử dụng các quan sát hoàn chỉnh theo cặp, nên bạn thực sự đang phân tích các bộ dữ liệu hơi khác nhau cho từng mối tương quan, tùy thuộc vào quan sát nào bị thiếu.

Hãy xem xét ví dụ sau:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Ba biến trong tập dữ liệu, a, b, và c, mỗi người đều có một số giá trị bị mất tích. Nếu bạn tính toán tương quan trên các cặp biến ở đây, bạn sẽ chỉ có thể sử dụng các trường hợp không thiếu giá trị cho cả hai biến được đề cập. Trong trường hợp này, điều đó có nghĩa là bạn sẽ chỉ phân tích 3 trường hợp cuối cùng cho mối tương quan giữa ab, chỉ ba trường hợp đầu tiên cho mối tương quan giữa bc, v.v.

Thực tế là bạn đang phân tích các trường hợp hoàn toàn khác nhau khi bạn tính toán từng mối tương quan có nghĩa là mô hình kết quả của các mối tương quan có thể trông vô nghĩa. Xem:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Đây trông giống như một mâu thuẫn logic --- abđang mạnh mẽ tích cực tương quan, và bccũng liên quan chặt chẽ một cách tích cực, do đó bạn sẽ mong đợi accó mối tương quan tích cực là tốt, nhưng có thực sự là một sự kết hợp mạnh mẽ theo hướng ngược lại. Bạn có thể thấy tại sao nhiều nhà phân tích không thích điều đó.

Chỉnh sửa để bao gồm làm rõ hữu ích từ whuber:

Lưu ý rằng một phần của đối số phụ thuộc vào mối tương quan "mạnh" có thể có nghĩa là gì. Nó là khá nhất có thể cho abcũng như bcđể được "mạnh mẽ tích cực tương quan", trong khi tồn tại một "hiệp hội mạnh mẽ theo hướng ngược lại" giữa ac, nhưng không phải là khá cực đoan như trong ví dụ này. Mấu chốt của vấn đề là ma trận tương quan ước tính (hoặc hiệp phương sai) có thể không xác định dương: đó là cách người ta nên định lượng "mạnh".

Vấn đề với loại thiếu

Bạn có thể tự nghĩ: "Chà, không ổn khi cứ cho rằng tập hợp con của các trường hợp tôi có sẵn cho mỗi mối tương quan theo ít nhiều cùng một mẫu tôi sẽ nhận được nếu tôi có dữ liệu hoàn chỉnh?" Và đúng, điều đó đúng --- về cơ bản không có gì sai khi tính toán mối tương quan trên một tập hợp con dữ liệu của bạn (mặc dù bạn mất độ chính xác và sức mạnh, tất nhiên, vì kích thước mẫu nhỏ hơn), miễn là dữ liệu có sẵn là ngẫu nhiên mẫu của tất cả các dữ liệu sẽ có ở đó nếu bạn không có bất kỳ thiếu sót nào.

Khi sự mất tích hoàn toàn ngẫu nhiên, đó gọi là MCAR (mất tích hoàn toàn ngẫu nhiên). Trong trường hợp đó, việc phân tích tập hợp con của dữ liệu không bị thiếu sẽ không làm sai lệch một cách có hệ thống các kết quả của bạn và sẽ không thể (nhưng không thể) có được kiểu mẫu tương quan hạt dẻ mà tôi đã trình bày trong ví dụ trên.

Khi sự thiếu sót của bạn có hệ thống theo một cách nào đó (thường được viết tắt là MAR hoặc NI, mô tả hai loại thiếu sót hệ thống khác nhau) thì bạn có nhiều vấn đề nghiêm trọng hơn, cả về khả năng giới thiệu sai lệch trong tính toán và về khả năng khái quát của bạn kết quả cho dân số quan tâm (vì mẫu bạn đang phân tích không phải là mẫu ngẫu nhiên trong dân số, ngay cả khi dữ liệu đầy đủ của bạn sẽ có).

Có rất nhiều các nguồn lực tốt nhất để tìm hiểu về thiếu dữ liệu và làm thế nào để đối phó với nó, nhưng đề nghị của tôi là Rubin: một cổ điển , và một bài báo gần đây


2
+1. Lưu ý rằng một phần của đối số của bạn phụ thuộc vào mối tương quan "mạnh" có thể có nghĩa là gì. Hoàn toàn có thể cho và cũng như và là "tương quan tích cực mạnh mẽ" trong khi tồn tại một "mối liên hệ mạnh mẽ theo hướng ngược lại" giữa và . Tuy nhiên, cả ba hệ số tương quan đều không thể cực kỳ giống như trong ví dụ của bạn, vì vậy bạn vẫn ổn ở đó. Mấu chốt của vấn đề là ma trận tương quan ước tính (hoặc hiệp phương sai) có thể không xác định dương: đó là cách người ta nên định lượng "mạnh". b b c a cabbcac
whuber

1
@whuber Cảm ơn, đó là một điểm quan trọng. Tôi đã cập nhật phần đó của câu trả lời để bao gồm sự làm rõ đó.
Rose Hartman

7

Một mối quan tâm lớn là liệu dữ liệu bị thiếu theo một cách có hệ thống nào đó sẽ làm hỏng phân tích của bạn. Dữ liệu của bạn có thể bị mất không ngẫu nhiên.

Điều này đã được đưa ra trong các câu trả lời trước đó, nhưng tôi nghĩ rằng tôi đã đóng góp một ví dụ.

Ví dụ về tài chính: lợi nhuận bị thiếu có thể là lợi nhuận kém

  • Không giống như các quỹ tương hỗ, các quỹ đầu tư tư nhân (và các quỹ tư nhân khác) không được pháp luật yêu cầu báo cáo lợi nhuận của họ cho một số cơ sở dữ liệu trung tâm.
  • Do đó, một mối quan tâm lớn là báo cáo là nội sinh, cụ thể hơn, một số công ty sẽ không báo cáo lợi nhuận xấu.
  • Nếu vậy, lợi nhuận trung bình của quỹ được báo cáo của bạn sẽ đánh giá quá cao giá trị trung bình thực vì thấp có xu hướng bị thiếu.Ri1niRiRi

Tất cả không nhất thiết bị mất trong những tình huống này (có những điều bạn có thể làm), nhưng việc chạy hồi quy một cách ngây thơ (hoặc tương quan điện toán) trên dữ liệu không bị thiếu có thể dẫn đến những ước tính sai lệch nghiêm trọng, không nhất quán về các thông số thực trong dân số.


4

Tương quan theo cặp là phù hợp nếu dữ liệu còn thiếu của bạn là Mất hoàn toàn ngẫu nhiên (MCAR). Cuốn sách Thiếu dữ liệu của Paul Allison là một nơi tốt để bắt đầu tại sao.

Bạn có thể kiểm tra điều này bằng cách sử dụng MCAR Test của Little (1988), có trong BaylorEdPsychgói.


1
Vẫn còn có mối quan tâm: ngay cả với dữ liệu MCAR, ma trận tương quan được ước tính thông qua tương quan cặp có thể không có giá trị dương.
whuber

Chắc chắn, nhưng câu hỏi hỏi về tương quan, nó không đề cập đến việc sử dụng ma trận tương quan kết quả như là một đầu vào cho một số thuật toán khác. Và, với kích thước mẫu, dù sao thì MCAR cũng khó xảy ra.
Tim

1
Nếu ma trận không xác định dương, đó là ước tính không hợp lệ. Ít nhất chúng ta phải lo lắng về sự không nhất quán đó. Tôi e rằng tôi không thấy khả năng MCAR (cơ chế thiếu) có thể liên quan đến cỡ mẫu như thế nào.
whuber

Người hỏi quan tâm đến một hàng duy nhất của ma trận tương quan. Bạn đã có một bằng chứng cho thấy các mối tương quan một hàng đều không hợp lệ nếu ma trận không xác định dương? Tôi rất thích nhìn thấy một bằng chứng về điều này và có được một số sự khôn ngoan. MCAR, nói chung, khá khó xảy ra với dữ liệu trong thế giới thực. Với kích thước mẫu lớn, sức mạnh của bài kiểm tra của Little tăng lên, do đó rất có khả năng bác bỏ giả thuyết khống về MCAR. Đừng hiểu sai ý tôi ở đây: Tôi sẽ không bao giờ sử dụng ma trận tương quan dữ liệu một phần làm đầu vào cho một phương thức đa biến, nhưng đây không phải là câu hỏi đặt ra.
Tim

1
Hãy để tôi làm rõ: Tôi không tuyên bố các mối tương quan là "tất cả không hợp lệ." Tôi tuyên bố rằng việc thu thập các ước tính tương quan (nghĩa là ma trận) có thể không hợp lệ. Điều đó là không thể chối cãi (không yêu cầu bằng chứng), bởi vì tất cả những gì bạn cần làm là thể hiện một trường hợp ước tính không hợp lệ, điều mà @RoseHartman đã thực hiện trong chuỗi này. Tôi sẽ không tranh cãi về tuyên bố của bạn rằng MCAR có thể khó xảy ra - miễn là nó được hiểu theo nghĩa cá nhân: theo kinh nghiệm của bạn, với các loại dữ liệu bạn quen thuộc, MCAR rất hiếm. Tôi không thấy làm thế nào bạn có thể biện minh cho bất kỳ giải thích rộng hơn về yêu cầu đó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.