Nó phụ thuộc vào mục tiêu suy luận. Nếu bạn muốn suy luận về việc có tồn tại một tương tác hay không, ví dụ, trong bối cảnh nguyên nhân (hay nói chung hơn, nếu bạn muốn giải thích hệ số tương tác), thì khuyến nghị này từ giáo sư của bạn có ý nghĩa, và nó xuất phát từ thực tế là việc sai chính tả của hình thức chức năng có thể dẫn đến những suy luận sai về tương tác .
Dưới đây là một ví dụ đơn giản khi không có thuật ngữ tương tác giữa x1 và x2 trong phương trình cấu trúc của y , tuy nhiên, nếu bạn không bao gồm thuật ngữ bậc hai của x1 , bạn sẽ kết luận sai rằng x1 tương tác với x2 khi Trong thực tế, nó không.
set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))
Call:
lm(formula = y ~ x1 + x2 + x1:x2)
Residuals:
Min 1Q Median 3Q Max
-3.7781 -0.8326 -0.0806 0.7598 7.7929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30116 0.04813 6.257 5.81e-10 ***
x1 1.03142 0.05888 17.519 < 2e-16 ***
x2 1.01806 0.03971 25.638 < 2e-16 ***
x1:x2 0.63939 0.02390 26.757 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared: 0.7935, Adjusted R-squared: 0.7929
F-statistic: 1276 on 3 and 996 DF, p-value: < 2.2e-16
Điều này có thể được hiểu đơn giản là một trường hợp sai lệch biến bị bỏ qua và ở đây x21 là biến bị bỏ qua. Nếu bạn quay lại và bao gồm thuật ngữ bình phương trong hồi quy của mình, tương tác rõ ràng sẽ biến mất.
summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))
Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))
Residuals:
Min 1Q Median 3Q Max
-3.4574 -0.7073 0.0228 0.6723 3.7135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0419958 0.0398423 -1.054 0.292
x1 1.0296642 0.0458586 22.453 <2e-16 ***
x2 1.0017625 0.0309367 32.381 <2e-16 ***
I(x1^2) 1.0196002 0.0400940 25.430 <2e-16 ***
x1:x2 -0.0006889 0.0313045 -0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared: 0.8748, Adjusted R-squared: 0.8743
F-statistic: 1739 on 4 and 995 DF, p-value: < 2.2e-16
Tất nhiên, lý do này không chỉ áp dụng cho các thuật ngữ bậc hai, mà còn sai chính tả của hình thức chức năng nói chung. Mục tiêu ở đây là mô hình hóa hàm kỳ vọng có điều kiện một cách thích hợp để đánh giá sự tương tác. Nếu bạn đang tự giới hạn mô hình hóa bằng hồi quy tuyến tính, thì bạn sẽ cần bao gồm các thuật ngữ phi tuyến này theo cách thủ công. Nhưng một giải pháp thay thế là sử dụng mô hình hồi quy linh hoạt hơn, chẳng hạn như hồi quy sườn nhân .