X và Y không tương quan, nhưng X là yếu tố dự báo quan trọng của Y trong hồi quy bội. Nó có nghĩa là gì?


34

X và Y không tương quan (-.01); tuy nhiên, khi tôi đặt X trong một hồi quy đa biến dự đoán Y, cùng với ba biến (A, B, C) khác (liên quan), X và hai biến khác (A, B) là các yếu tố dự báo quan trọng của Y. Lưu ý rằng hai biến số khác (A, B) Các biến A, B) có mối tương quan đáng kể với Y bên ngoài hồi quy.

Làm thế nào tôi nên giải thích những phát hiện này? X dự đoán phương sai duy nhất trong Y, nhưng vì chúng không tương quan (Pearson), nên bằng cách nào đó khó diễn giải.

Tôi biết các trường hợp ngược lại (nghĩa là hai biến tương quan nhưng hồi quy không đáng kể) và những biến tương đối đơn giản hơn để hiểu từ góc độ lý thuyết và thống kê. Lưu ý rằng một số yếu tố dự đoán khá tương quan (ví dụ: 0,70) nhưng không đến mức tôi mong đợi tính đa hình đáng kể. Có lẽ tôi đã nhầm.

LƯU Ý: Tôi đã hỏi câu hỏi này trước đây và nó đã bị đóng. Lý do là câu hỏi này là dư thừa với câu hỏi " Làm thế nào một hồi quy có thể có ý nghĩa nhưng tất cả các dự đoán đều không quan trọng?". Có lẽ tôi không hiểu câu hỏi kia, nhưng tôi tin rằng đây là những câu hỏi hoàn toàn riêng biệt, cả về mặt toán học và lý thuyết. Câu hỏi của tôi hoàn toàn độc lập nếu" hồi quy có ý nghĩa ". Ngoài ra, một số câu hỏi dự đoán còn có ý nghĩa đòi hỏi các biến không đáng kể, vì vậy tôi không thấy sự trùng lặp. Nếu những câu hỏi này là dư thừa vì những lý do tôi không hiểu, vui lòng chèn một nhận xét trước khi đóng câu hỏi này. Ngoài ra, tôi hy vọng sẽ nhắn tin cho người điều hành đã đóng câu hỏi khác câu hỏi để tránh các câu hỏi giống hệt nhau, nhưng tôi không thể tìm thấy một lựa chọn để làm như vậy.


2
Tôi nghĩ rằng điều này rất giống với câu hỏi trước. Nếu X và Y về cơ bản không tương quan thì trong hồi quy tuyến tính đơn giản, hệ số độ dốc cho X sẽ không đáng kể. Sau khi tất cả các ước tính độ dốc tỷ lệ thuận với tương quan mẫu. Hồi quy đa biến có thể là một câu chuyện khác nhau vì X và Z cùng nhau có thể giải thích rất nhiều sự biến đổi trong Y. Vì câu trả lời của tôi nghe giống với câu trả lời cho câu hỏi trước đó có thể cho thấy sự tương đồng rõ rệt.
Michael R. Chernick

2
Cảm ơn bạn đã trả lời của bạn và câu trả lời rất chi tiết trong các chủ đề khác. Tôi sẽ cần phải đọc nó một vài lần để có được luận điểm của nó. Mối quan tâm khác của tôi, tôi cho rằng, là làm thế nào để giải thích nó một cách thực tế hơn là có thể theo thống kê hoặc toán học. Ví dụ, giả sử tốc độ bơi và lo lắng về đặc điểm không tương quan với nhau, nhưng lo lắng về đặc điểm là một yếu tố dự báo đáng kể về tốc độ bơi trong hồi quy bội cùng với các dự đoán khác. Làm thế nào điều này có thể có ý nghĩa, thực tế? Hãy nói rằng bạn đã viết điều này trong phần thảo luận của một tạp chí lâm sàng!
Behacad

3
@jth Vì bạn duy trì hai câu hỏi đủ khác nhau để không bị coi là trùng lặp, xin vui lòng chuyển câu trả lời của bạn sang câu hỏi còn lại ở đây. (Tôi xin lỗi vì ban đầu không coi trọng sự khác biệt.) Ghi chú mới, tôi tin rằng, là không chính xác trong giả những câu hỏi về mặt toán học khác nhau - @ điểm Michael Chernick hiểu họ là về cơ bản giống nhau - nhưng sự nhấn mạnh vào việc giải thích lập một lý do chính đáng để giữ cho các chủ đề riêng biệt.
whuber

1
Tôi cũng đã chuyển câu trả lời ở đây. Tôi nghĩ rằng cả hai câu hỏi khá khác nhau nhưng có thể chia sẻ một số giải thích chung.
JDav

1
Trang web này có một cuộc thảo luận tuyệt vời về các chủ đề liên quan. Nó dài, nhưng rất tốt và có thể giúp bạn hiểu các vấn đề. Tôi khuyên bạn nên đọc nó hoàn toàn.
gung - Phục hồi Monica

Câu trả lời:


39

Lý thuyết nhân quả đưa ra một lời giải thích khác về cách hai biến có thể độc lập vô điều kiện nhưng phụ thuộc có điều kiện. Tôi không phải là một chuyên gia về lý thuyết nhân quả và rất biết ơn về bất kỳ lời chỉ trích nào sẽ sửa chữa bất kỳ sai lầm nào dưới đây.

Để minh họa, tôi sẽ sử dụng đồ thị chu kỳ có hướng (DAG). Trong các biểu đồ này, các cạnh ( ) giữa các biến thể hiện mối quan hệ nhân quả trực tiếp. Đầu mũi tên ( hoặc ) chỉ ra hướng của mối quan hệ nhân quả. Như vậy AB infers rằng A trực tiếp gây ra B , và AB infers rằng A là trực tiếp gây ra bởi B . ABC là con đường nhân quả xâm nhập mà A gián tiếp gây ra C qua B. Để đơn giản, giả sử tất cả các mối quan hệ nhân quả là tuyến tính.

Đầu tiên, hãy xem xét một ví dụ đơn giản về thiên vị gây nhiễu :

gây nhiễu

Ở đây, một hồi quy bivariable đơn giản sẽ đề nghị một sự phụ thuộc giữa XY . Tuy nhiên, không có mối quan hệ nhân quả trực tiếp giữa XY . Thay vào đó, cả hai đều do Z trực tiếp gây ra và trong hồi quy đơn giản đơn giản, việc quan sát Z gây ra sự phụ thuộc giữa XY , dẫn đến sai lệch do nhiễu. Tuy nhiên, một điều hồi quy đa biến trên Z sẽ loại bỏ các thành kiến và đề nghị không phụ thuộc giữa XY .

Thứ hai, hãy xem xét một ví dụ về thiên vị máy va chạm (còn được gọi là thiên vị Berkson hoặc thiên vị Berkson, trong đó thiên vị lựa chọn là một loại đặc biệt):

máy va chạm

Ở đây, một hồi quy bivariable đơn giản sẽ cho thấy không có sự phụ thuộc giữa XY . Này phù hợp với các DAG, mà suy luận không có mối quan hệ nhân quả trực tiếp giữa XY . Tuy nhiên, điều hòa hồi quy đa biến trên Z sẽ tạo ra sự phụ thuộc giữa XY cho thấy mối quan hệ nhân quả trực tiếp giữa hai biến có thể tồn tại, trong khi thực tế không tồn tại. Việc đưa Z vào hồi quy đa biến dẫn đến sai lệch máy va chạm.

Thứ ba, xem xét một ví dụ về hủy bỏ ngẫu nhiên:

hủy bỏ

Chúng ta hãy giả sử rằng α , β , và γ là hệ số con đường và β=αγ . Một hồi quy bivariable đơn giản sẽ đề nghị không depenence giữa XY . Mặc dù X là trong thực tế, một nguyên nhân trực tiếp của Y , hiệu ứng nhiễu của Z trên XY tình cờ hủy bỏ tác động của X trên Y . Một điều hòa hồi quy đa biến trên Z sẽ loại bỏ hiệu ứng gây nhiễu của Z trên XY , cho phép ước tính tác động trực tiếp củaX lênY , giả sử DAG của mô hình nhân quả là chính xác.

Để tóm tắt:

Confounder dụ: XY là phụ thuộc vào suy thoái bivariable và độc lập trong điều hồi quy đa biến trên confounder Z .

Collider dụ: XY là độc lập trong hồi quy bivariable và phụ thuộc vào điều regresssion đa biến trên máy gia tốc Z .

Ví dụ hủy bỏ inicdental: XY là độc lập trong hồi quy bivarable và phụ thuộc vào điều hòa hồi quy đa biến trên Z gây nhiễu .

Thảo luận:

Kết quả phân tích của bạn không tương thích với ví dụ gây nhiễu, nhưng tương thích với cả ví dụ máy va chạm và ví dụ hủy ngẫu nhiên. Do đó, một lời giải thích tiềm năng là bạn đã sai lạnh trên một biến gia tốc trong hồi quy đa biến của bạn và đã gây ra một mối liên hệ giữa XY mặc dù X không phải là một nguyên nhân của YY không phải là một nguyên nhân của X . Ngoài ra, bạn có thể đã điều chỉnh chính xác một yếu tố gây nhiễu trong hồi quy đa biến của mình, điều này đã vô tình loại bỏ tác dụng thực sự của X đối với Y trong hồi quy khả biến của bạn.

Tôi thấy việc sử dụng kiến ​​thức nền tảng để xây dựng các mô hình nhân quả sẽ hữu ích khi xem xét các biến cần đưa vào các mô hình thống kê. Ví dụ, nếu các nghiên cứu ngẫu nhiên chất lượng cao trước đây kết luận rằng X gây ra ZY gây ra Z , tôi có thể đưa ra một giả định mạnh mẽ rằng Z là một máy va chạm của XY và không dựa trên mô hình thống kê. Tuy nhiên, nếu tôi chỉ có một trực giác rằng X gây ra ZY gây ra Z , nhưng không có bằng chứng khoa học mạnh mẽ nào hỗ trợ cho trực giác của tôi, tôi chỉ có thể đưa ra một giả định yếu rằng Zlà một người va chạm của XY , vì trực giác của con người có một lịch sử bị sai lầm. Sau đó, tôi sẽ hoài nghi về mối quan hệ nhân quả giữa infering XY mà không cần điều tra thêm các mối quan hệ nhân quả của họ với Z . Thay vì hoặc ngoài kiến ​​thức nền tảng, còn có các thuật toán được thiết kế để suy ra các mô hình nguyên nhân từ dữ liệu bằng cách sử dụng một chuỗi các phép thử liên kết (ví dụ: thuật toán PC và thuật toán FCI, xem TETRAD để triển khai Java, PCacheđể thực hiện R). Các thuật toán này rất thú vị, nhưng tôi sẽ không đề xuất dựa vào chúng nếu không có sự hiểu biết mạnh mẽ về sức mạnh và hạn chế của tính toán nguyên nhân và mô hình nguyên nhân trong lý thuyết nhân quả.

Phần kết luận:

Việc xem xét các mô hình nguyên nhân không tha cho điều tra viên giải quyết các cân nhắc thống kê được thảo luận trong các câu trả lời khác ở đây. Tuy nhiên, tôi cảm thấy rằng các mô hình nhân quả tuy nhiên có thể cung cấp một khuôn khổ hữu ích khi nghĩ đến các giải thích tiềm năng cho sự phụ thuộc và độc lập thống kê quan sát được trong các mô hình thống kê, đặc biệt là khi hình dung các yếu tố gây nhiễu và va chạm tiềm năng.

Đọc thêm:

Gelman, Andrew. 2011. " Nhân quả và học thống kê ." Là. J. Xã hội học 117 (3) (tháng 11): 955 Từ966.

Greenland, S, J Pearl và JM Robins. 1999. Sơ đồ nguyên nhân của nghiên cứu dịch tễ học . Dịch tễ học dịch tễ học (Cambridge, Mass.) 10 (1) (tháng 1): 37 mộc48.

Greenland, Sander. 2003. Xu hướng Định lượng Định lượng trong các Mô hình Nhân quả: Xu hướng Cổ điển Vs Collider-Stratization Bias . Cổ dịch tễ học 14 (3) (1 tháng 5): 300 đi 306.

Ngọc trai, Giuđê. 1998. Tại sao không có thử nghiệm thống kê cho sự bối rối, tại sao nhiều người nghĩ rằng có, và tại sao họ gần như đúng .

Ngọc trai, Giuđê. 2009. Nhân quả: Mô hình, lý luận và suy luận . Tái bản lần 2 Nhà xuất bản Đại học Cambridge.

Spirtes, Peter, Clark Glymour và Richard Scheines. 2001. Nhân quả, Dự đoán và Tìm kiếm , Ấn bản thứ hai. Một cuốn sách của Warren.

Cập nhật: Judea Pearl thảo luận về lý thuyết suy luận nguyên nhân và sự cần thiết phải kết hợp suy luận nguyên nhân vào các khóa học thống kê giới thiệu trong ấn bản tháng 11 năm 2012 của Amstat News . Bài giảng Turing Award của ông , mang tên "Cơ giới hóa suy luận nguyên nhân: Một thử nghiệm Turing 'mini' và hơn thế nữa" cũng rất đáng quan tâm.


Các đối số nguyên nhân chắc chắn là hợp lệ nhưng để nhà nghiên cứu đăng ký theo cách tiếp cận đó đòi hỏi kiến ​​thức rất tốt về các hiện tượng cơ bản. Tôi tự hỏi nếu phân tích @Behacad đang thực hiện chỉ là thăm dò.
JDav

1
@Behacad: Như đã đề cập trong câu trả lời của tôi, tôi khuyên bạn nên quên đi những đơn là vấn đề của bạn là một đa biến và không hai biến. Để đo lường mức độ ảnh hưởng của biến quan tâm của bạn, bạn cần kiểm soát các nguồn biến thể khác có thể làm sai lệch ảnh hưởng đo được của x. ρ
JDav

5
+1 Các minh họa và giải thích rất rõ ràng và được thực hiện tốt. Cảm ơn bạn đã nỗ lực và nghiên cứu mà (rõ ràng) đã đi vào câu trả lời này.
whuber

1
Ngoài ra, ai đó có thể cho tôi một ví dụ thực tế về "Thứ ba, xem xét một ví dụ về hủy bỏ ngẫu nhiên?". Câu hỏi về quan hệ nhân quả xuất hiện. Nếu X và Y không tương quan với nhau (nghĩa là thay đổi trong X không liên quan đến thay đổi trong Y "), làm thế nào chúng ta có thể xem xét" nguyên nhân "này. Đây chính xác là điều tôi đang thắc mắc trong một câu hỏi khác! Statistics.stackexchange.com/questions / 33638 / Hoài
Behacad

4
Điều đáng chú ý là có một số tên thay thế cho những điều này: Confounder -> Mô hình nguyên nhân chung; Collider -> Mô hình hiệu ứng chung; & Hủy bỏ sự cố là một trường hợp đặc biệt của Hòa giải một phần.
gung - Tái lập Monica

22

Tôi nghĩ cách tiếp cận của @ jthetzel là đúng (+1). Để diễn giải những kết quả này, bạn sẽ phải suy nghĩ / có một số lý thuyết về lý do tại sao các mối quan hệ biểu hiện như họ làm. Đó là, bạn sẽ cần phải suy nghĩ về mô hình của các mối quan hệ nhân quả làm nền tảng cho dữ liệu của bạn. Bạn cần nhận ra rằng, như @jthetzel chỉ ra, kết quả của bạn phù hợp với một số quy trình tạo dữ liệu khác nhau. Tôi không nghĩ rằng bất kỳ số lượng thử nghiệm thống kê bổ sung nào trên cùng một bộ dữ liệu sẽ cho phép bạn phân biệt giữa các khả năng đó (mặc dù các thử nghiệm tiếp theo chắc chắn có thể). Vì vậy, suy nghĩ kỹ về những gì đã biết về chủ đề này là rất quan trọng ở đây.

Tôi muốn chỉ ra một tình huống tiềm ẩn khác có thể tạo ra kết quả như của bạn: Ức chế . Điều này khó minh họa hơn bằng cách sử dụng sơ đồ mũi tên, nhưng nếu tôi có thể tăng chúng một chút, chúng ta có thể nghĩ về nó như thế này:

nhập mô tả hình ảnh ở đây

Other VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable trong tình huống này (và do đó, một lần nữa, bạn cần suy nghĩ về mô hình cơ bản có thể dựa trên kiến ​​thức của bạn về khu vực này).

SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Quan điểm của tôi ở đây không phải là tình huống này là vấn đề làm cơ sở dữ liệu của bạn. Tôi không biết điều này nhiều hay ít hơn các tùy chọn mà @jthetzel gợi ý. Tôi chỉ cung cấp điều này như nhiều thực phẩm cho suy nghĩ. Để diễn giải kết quả hiện tại của bạn, bạn cần suy nghĩ về những khả năng này và quyết định điều gì có ý nghĩa nhất. Để xác nhận sự lựa chọn của bạn, sẽ cần thử nghiệm cẩn thận.


2
Xuất sắc! Cảm ơn bạn. Điều này phục vụ như một ví dụ tốt khác về những gì có thể xảy ra trong dữ liệu của tôi. Có vẻ như tôi chỉ có thể chấp nhận một câu trả lời, mặc dù ...
Behacad

Không có vấn đề, @Behacad, tôi nghĩ rằng jthetzel xứng đáng được đánh dấu; Tôi rất vui khi được giúp đỡ.
gung - Phục hồi Monica

7

Chỉ cần một số hình dung rằng nó có thể.

Trên hình ảnh (a) tình huống hồi quy "bình thường" hoặc "trực quan" được hiển thị. Bức ảnh này giống như ví dụ được tìm thấy (và giải thích) ở đây hoặc ở đây .

YY^b

b1b2X1X2

nhập mô tả hình ảnh ở đây

X1YYX1YX2

X1YX1

Dữ liệu và phân tích xấp xỉ tương ứng với pic (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

nhập mô tả hình ảnh ở đây

Dữ liệu và phân tích xấp xỉ tương ứng với pic (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

nhập mô tả hình ảnh ở đây

X1Y.224X2.419.538


Cảm ơn! Nó vẫn cảm thấy hơi phản cảm, nhưng ít nhất những bức ảnh của bạn cho thấy nó khả thi :)
JelenaČuklina

5

Tôi đồng ý với câu trả lời trước nhưng hy vọng tôi có thể đóng góp bằng cách cung cấp thêm chi tiết.

XYxy

Y=a+βx+u

ρ^yx=β^σ^x/σ^y

Y

Y=a+βx+jαjzj+u

βzjρρxy|zzj


ρρ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.