Chẩn đoán cộng tác chỉ có vấn đề khi bao gồm thuật ngữ tương tác


26

Tôi đã thực hiện một hồi quy trên các hạt của Hoa Kỳ và đang kiểm tra sự cộng tác trong các biến 'độc lập' của tôi. Chẩn đoán hồi quy của Belsley, Kuh và Welsch đề nghị xem xét Chỉ số điều kiện và tỷ lệ phân rã phương sai:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif cho thấy VIF> 5 có vấn đề:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Trong khi đó, chẩn đoán hồi quy của John Fox đề nghị xem xét căn bậc hai của VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

Trong hai trường hợp đầu tiên (trong đó đề xuất cắt bỏ rõ ràng), mô hình chỉ có vấn đề khi bao gồm thuật ngữ tương tác.

Mô hình với thuật ngữ tương tác cho đến thời điểm này là đặc điểm kỹ thuật ưa thích của tôi.

Tôi có hai câu hỏi được đưa ra để giải quyết vấn đề này:

  1. Có phải một thuật ngữ tương tác luôn làm xấu đi tính cộng tác của dữ liệu?
  2. Vì hai biến không có thuật ngữ tương tác không vượt quá ngưỡng, tôi có thể sử dụng mô hình với thuật ngữ tương tác không. Cụ thể, lý do tôi nghĩ rằng điều này có thể ổn là vì tôi đang sử dụng phương pháp King, Tomz và Wittenberg (2000) để giải thích các hệ số (mô hình nhị thức âm), trong đó tôi thường giữ các hệ số khác ở mức trung bình, và sau đó diễn giải những gì xảy ra với dự đoán của biến phụ thuộc của tôi khi tôi di chuyển inc09_10kunins09xung quanh một cách độc lập và cùng nhau.

Câu trả lời:


31

Có, đây thường là trường hợp với các tương tác không tập trung. Một cái nhìn nhanh về những gì xảy ra với mối tương quan của hai biến độc lập và "tương tác" của chúng

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Và sau đó khi bạn tập trung vào chúng:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

X, X2, ...

Vì vậy, bạn có thể cung cấp cho một shot với cặp của bạn.


Về lý do tại sao định tâm giúp - nhưng hãy quay lại định nghĩa hiệp phương sai

Cov(X,XY)= =E[(X-E(X))(XY-E(XY))]= =E[(X-μx)(XY-μxy)]= =E[X2Y-Xμxy-XYμx+μxμxy]= =E[X2Y]-E[X]μxy-E[XY]μx+μxμxy

Ngay cả sự độc lập của X và Y

= =E[X2]E[Y]-μxμxμy-μxμyμx+μxμxμy= =(σx2+μx2)μy-μx2μy= =σx2μy

XY


XXYYXXYY


Thú vị, cảm ơn. Bạn có một lời giải thích hoặc trích dẫn lý do tại sao các trung tâm quan trọng?
Ari B. Friedman

Tôi nghĩ rằng câu trả lời này không xứng đáng với toàn bộ tiền thưởng, nhưng tôi muốn cho nó một nửa tiền thưởng. Không chắc chắn điều đó xảy ra trừ khi nó có phiếu bầu thứ hai mặc dù: - /.
Ari B. Friedman

1
@ AriB.Friedman, bạn không (chính xác) có tùy chọn cho một nửa tiền thưởng. Bạn không thể thưởng tiền thưởng (mặc dù bạn vẫn sẽ mất đại diện) và bài đăng này có thể sẽ được trao một nửa số tiền thưởng tự động (xem phần có liên quan của trang trợ giúp ). Tuy nhiên, tại sao câu trả lời này không xứng đáng với tiền thưởng? Affine là chính xác ngay tại đây (+1).
gung - Tái lập Monica

@gung Mình đang tìm chỉnh sửa trước. Chắc chắn xứng đáng với nó bây giờ. Cảm ơn @Affine! Đối với phần nửa tiền thưởng, sự hiểu biết của tôi là >=câu trả lời +2 nhận được một nửa tiền thưởng nếu tiền thưởng không được trao bằng tay.
Ari B. Friedman

@ AriB.Friedman, điều đó đúng, nhưng trước khi tôi nhận xét (& được nâng cấp, và ai đó cũng làm như vậy), anh ta đã không có hơn 2 lượt upvote.
gung - Phục hồi Monica

0

Tôi đã tìm thấy các ấn phẩm sau đây về chủ đề này hữu ích:

Robinson & Schumacker (2009): Hiệu ứng tương tác: định tâm, yếu tố lạm phát phương sai và các vấn đề giải thích

'Các tác động của tỷ lệ dự đoán đối với các hệ số của phương trình hồi quy (giải pháp tập trung so với không được kiểm soát và hiệu ứng tương tác bậc cao (tương tác 3 chiều; phân loại theo hiệu ứng liên tục) đã được Aiken và West (1991) minh họa rõ ràng. được đưa vào phương trình hồi quy với thuật ngữ tương tác khi các biến không nằm ở giữa. '

Afshartous & Preston (2011): Kết quả chính của các mô hình tương tác với định tâm

'Động lực cho việc sử dụng định tâm biến đổi bao gồm khả năng giải thích được nâng cao của các hệ thống và giảm sự mất ổn định về số lượng để ước tính liên quan đến tính đa hình.'

Rõ ràng Aiken và West (1991) cũng đề cập đến chủ đề này, nhưng tôi không có cuốn sách của họ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.