Trong hồi quy tuyến tính, tại sao chúng ta nên bao gồm các thuật ngữ bậc hai khi chúng ta chỉ quan tâm đến các thuật ngữ tương tác?


10

Giả sử tôi quan tâm đến mô hình hồi quy tuyến tính, vì , vì tôi muốn xem liệu tương tác giữa hai hiệp phương sai có ảnh hưởng đến Y.

Yi=β0+β1x1+β2x2+β3x1x2

Trong ghi chú khóa học của giáo sư (người mà tôi không liên lạc), nó ghi rõ: Khi bao gồm các điều khoản tương tác, bạn nên bao gồm các điều khoản bằng cấp thứ hai của họ. tức là nên được đưa vào hồi quy.

YTôi= =β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Tại sao nên bao gồm các điều khoản mức độ thứ hai khi chúng ta chỉ quan tâm đến các tương tác?


7
Nếu mô hình có , nó sẽ bao gồm và . Nhưng và là tùy chọn. x1x2x1x2x12x22
dùng158565

6
Ý kiến ​​của giáo sư của bạn dường như là không bình thường. Nó có thể xuất phát từ một nền tảng chuyên môn hoặc tập hợp kinh nghiệm, bởi vì "nên" chắc chắn không phải là một yêu cầu phổ quát. Bạn có thể tìm thấy stats.stackexchange.com/questions/11009 để được quan tâm.
whuber

@ user158565 xin chào! Tôi có thể hỏi tại sao chúng ta cũng nên bao gồm và không? Ban đầu tôi không nghĩ về điều đó, nhưng bây giờ bạn đã đề cập đến nó ..! x1x2
đánh lừa 126

@ xin chào! Cảm ơn các liên kết! Tôi nghĩ bao gồm cả hiệu ứng chính có ý nghĩa, nhưng tôi gặp khó khăn khi mở rộng điều đó sang việc phải bao gồm các điều khoản thứ hai. // user158565 Tôi nghĩ rằng liên kết ở trên đã trả lời rằng, cảm ơn bạn!
đánh lừa 126

Bạn vui lòng gửi một liên kết đến dữ liệu?
James Phillips

Câu trả lời:


8

Nó phụ thuộc vào mục tiêu suy luận. Nếu bạn muốn suy luận về việc có tồn tại một tương tác hay không, ví dụ, trong bối cảnh nguyên nhân (hay nói chung hơn, nếu bạn muốn giải thích hệ số tương tác), thì khuyến nghị này từ giáo sư của bạn có ý nghĩa, và nó xuất phát từ thực tế là việc sai chính tả của hình thức chức năng có thể dẫn đến những suy luận sai về tương tác .

Dưới đây là một ví dụ đơn giản khi không có thuật ngữ tương tác giữa x1x2 trong phương trình cấu trúc của y , tuy nhiên, nếu bạn không bao gồm thuật ngữ bậc hai của x1 , bạn sẽ kết luận sai rằng x1 tương tác với x2 khi Trong thực tế, nó không.

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Điều này có thể được hiểu đơn giản là một trường hợp sai lệch biến bị bỏ qua và ở đây x12 là biến bị bỏ qua. Nếu bạn quay lại và bao gồm thuật ngữ bình phương trong hồi quy của mình, tương tác rõ ràng sẽ biến mất.

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Tất nhiên, lý do này không chỉ áp dụng cho các thuật ngữ bậc hai, mà còn sai chính tả của hình thức chức năng nói chung. Mục tiêu ở đây là mô hình hóa hàm kỳ vọng có điều kiện một cách thích hợp để đánh giá sự tương tác. Nếu bạn đang tự giới hạn mô hình hóa bằng hồi quy tuyến tính, thì bạn sẽ cần bao gồm các thuật ngữ phi tuyến này theo cách thủ công. Nhưng một giải pháp thay thế là sử dụng mô hình hồi quy linh hoạt hơn, chẳng hạn như hồi quy sườn nhân .


Cảm ơn bạn @CarlosCinelli, kết luận, bạn có nói rằng chúng ta nên bao gồm các điều khoản có cùng mức độ - để giải thích cho sự sai sót tiềm năng của hình thức chức năng - và để hồi quy xác định thuật ngữ nào là quan trọng?
đánh lừa 126

3
@KevinC câu hỏi chính ở đây là: bạn có muốn diễn giải thuật ngữ tương tác không? Nếu bạn làm như vậy, thì việc sai chính tả của hình thức chức năng là một vấn đề thực sự. Thêm các thuật ngữ bậc hai chỉ là một cách đơn giản để nắm bắt các phi tuyến tính, nhưng vấn đề chung là mô hình hóa hàm kỳ vọng có điều kiện một cách thích hợp.
Carlos Cinelli

1
Xin vui lòng không bao gồm rm(list=ls())trong mã được đăng ở đây! Nếu mọi người chỉ sao chép và dán và chạy mã, họ có thể gặp bất ngờ ... Tôi đã xóa nó ngay bây giờ.
kjetil b halvorsen

3

X1X2

Mô hình đầu tiên có thể được thể hiện lại như thế này:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

X1YX2X1X2X1YX2

Mô hình thứ hai có thể được thể hiện lại như thế này:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

X1YX2X1X12X12X2X1X2

X1YX2

X1X2X1X2X12X22

Lưu ý rằng tôi đã đơn giản hóa ký hiệu bạn đã sử dụng để thống nhất và cũng có nghĩa là thuật ngữ lỗi rõ ràng trong cả hai mô hình.


2
Xin chào @IsabellaGhement, cảm ơn bạn đã giải thích. Tóm lại, thực sự không có "quy tắc" nào trong đó chúng ta nên thêm các thuật ngữ bậc hai nếu chúng ta bao gồm các thuật ngữ tương tác. Vào cuối ngày, nó quay trở lại với các giả định mà chúng tôi đang đưa ra về mô hình của chúng tôi và kết quả phân tích của chúng tôi (ví dụ: các lô dư). Điều này có đúng không? Cảm ơn một lần nữa :)!
đánh lừa 126

2
Đúng vậy, Kevin! Không có "quy tắc" nào, bởi vì mỗi bộ dữ liệu là khác nhau và cũng có nghĩa là để trả lời các câu hỏi khác nhau. Đó là lý do tại sao điều quan trọng đối với chúng tôi là phải biết rằng mỗi mô hình chúng tôi phù hợp với tập dữ liệu đó hàm ý các giả định khác nhau, cần được hỗ trợ bởi dữ liệu để chúng tôi tin tưởng vào kết quả mô hình. Các sơ đồ chẩn đoán mô hình (ví dụ, biểu đồ của phần dư so với giá trị được trang bị) giúp chúng tôi xác minh ở mức độ nào - nếu có - dữ liệu hỗ trợ các giả định mô hình.
Isabella Ghement

1
@KevinC: Tuyệt vời! Chúc bạn ngày lễ vui vẻ, Kevin! ☃🎉🎁🎈
Isabella Ghement
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.