Thuật ngữ tương tác sử dụng biến trung tâm phân tích hồi quy phân cấp? Những biến nào chúng ta nên tập trung?

Tôi đang chạy một phân tích hồi quy phân cấp và tôi có một số nghi ngờ nhỏ:

Chúng ta có tính toán thuật ngữ tương tác bằng cách sử dụng các biến trung tâm không?
Chúng ta có phải tập trung TẤT CẢ các biến liên tục mà chúng ta có trong tập dữ liệu, ngoại trừ biến phụ thuộc không?
Khi chúng ta phải ghi nhật ký một số biến (vì sd của chúng cao hơn giá trị trung bình của chúng), thì chúng ta có tập trung vào biến vừa được ghi hoặc biến ban đầu không?

Ví dụ: Biến "Doanh thu" ---> Doanh thu được ghi nhật ký (vì sd quá cao so với giá trị trung bình) ---> Centered_Turnover?

HOẶC nó sẽ trực tiếp Doanh thu -> Centered_Turnover (và chúng tôi làm việc với cái này)

CẢM ƠN!!

interaction multicollinearity centering

— Tiến sĩ
nguồn

Bạn nên tập trung vào các điều khoản liên quan đến tương tác để giảm cộng tuyến, vd

set.seed(10204)
x1 <- rnorm(1000, 10, 1)
x2 <- rnorm(1000, 10, 1)
y <- x1 + rnorm(1000, 5, 5)  + x2*rnorm(1000) + x1*x2*rnorm(1000) 

x1cent <- x1 - mean(x1)
x2cent <- x2 - mean(x2)
x1x2cent <- x1cent*x2cent

m1 <- lm(y ~ x1 + x2 + x1*x2)
m2 <- lm(y ~ x1cent + x2cent + x1cent*x2cent)

summary(m1)
summary(m2)

Đầu ra:

> summary(m1)

Call:
lm(formula = y ~ x1 + x2 + x1 * x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  193.333    335.281   0.577    0.564
x1           -15.830     33.719  -0.469    0.639
x2           -14.065     33.567  -0.419    0.675
x1:x2          1.179      3.375   0.349    0.727

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015

> summary(m2)

Call:
lm(formula = y ~ x1cent + x2cent + x1cent * x2cent)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     12.513      3.203   3.907 9.99e-05 ***
x1cent          -4.106      3.186  -1.289    0.198    
x2cent          -2.291      3.198  -0.716    0.474    
x1cent:x2cent    1.179      3.375   0.349    0.727    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015


library(perturb)
colldiag(m1)
colldiag(m2)

Cho dù bạn tập trung vào các biến khác là tùy thuộc vào bạn; định tâm (trái ngược với tiêu chuẩn hóa) một biến không liên quan đến tương tác sẽ thay đổi ý nghĩa của việc chặn, nhưng không phải là những thứ khác, vd

x1 <- rnorm(1000, 10, 1)
x2 <- x1 - mean(x1)
y <- x1 + rnorm(1000, 5, 5) 
m1 <- lm(y ~ x1)
m2 <- lm(y ~ x2)

summary(m1)
summary(m2)

Đầu ra:

> summary(m1)

Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5412     1.6003   4.087 4.71e-05 ***
x1            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

> summary(m2)

Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  15.0965     0.1607  93.931  < 2e-16 ***
x2            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

Nhưng bạn nên lấy nhật ký của các biến vì nó có ý nghĩa để làm như vậy hoặc vì phần dư từ mô hình chỉ ra rằng bạn không nên vì chúng có nhiều biến đổi. Hồi quy không đưa ra các giả định về phân phối các biến, nó đưa ra các giả định về phân phối phần dư.

— Peter Flom
nguồn

Cảm ơn phản hồi của bạn, Peter! Vì vậy, tôi giả sử rằng trước tiên tôi sẽ phải ghi nhật ký các biến (tất cả các yếu tố dự đoán?) Và sau đó, tôi sẽ chỉ tập trung vào các biến độc lập cần thiết để tính toán các thuật ngữ tương tác. Một câu hỏi nữa: Bạn có đề nghị định tâm hoặc chuẩn hóa các biến không? Một lần nữa, cảm ơn rất nhiều !!

— Tiến sĩ

Có, đăng nhập trước khi định tâm. Tiêu chuẩn hóa và định tâm làm những việc khác nhau; không sai Một số thích tiêu chuẩn hóa, tôi thường thích các biến "thô".

— Peter Flom

y <- x1 + rnorm(1000, 5, 5) + x2*rnorm(1000) + x1*x2*rnorm(1000)

x_{1} + 5

$x_1 +5$

1 + 25 + 1 + 1

$1 + 25 + 1 + 1$