Không có gì. Độ lớn của các hệ số phụ thuộc trực tiếp vào các thang đo được chọn cho các biến, đây là một quyết định mô hình hóa tùy ý.
Để thấy điều này, hãy xem xét một mô hình hồi quy tuyến tính dự đoán chiều rộng cánh hoa của mống mắt (tính bằng centimet) với chiều dài cánh hoa của nó (tính bằng centimet):
summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
# Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
Mô hình của chúng tôi đạt được giá trị R ^ 2 đã điều chỉnh là 0,9266 và gán giá trị hệ số 0,415755 cho biến Petal.Lipse.
Tuy nhiên, lựa chọn xác định Petal. Bước sóng tính bằng centimet khá tùy ý và thay vào đó chúng ta có thể định nghĩa biến theo mét:
iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.36308 0.03976 -9.131 4.7e-16 ***
# Petal.Length.Meters 41.57554 0.95824 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
Tất nhiên, điều này không thực sự ảnh hưởng đến mô hình được trang bị theo bất kỳ cách nào - chúng tôi chỉ cần gán một hệ số lớn hơn 100 lần cho Petal.Lipse.Meter (41,57554) so với Petal.Lipse (0.415755). Tất cả các thuộc tính khác của mô hình (được điều chỉnh R ^ 2, thống kê t, giá trị p, v.v.) là giống hệt nhau.
Thông thường, khi điều chỉnh các mô hình tuyến tính chính quy, trước tiên, người ta sẽ bình thường hóa các biến (ví dụ: có trung bình 0 và phương sai đơn vị) để tránh ưu tiên một số biến hơn các biến khác dựa trên thang đo đã chọn.
Giả sử dữ liệu chuẩn hóa
Ngay cả khi bạn đã bình thường hóa tất cả các biến, các biến có hệ số cao hơn vẫn có thể không hữu ích trong dự đoán vì các biến độc lập hiếm khi được đặt (có phương sai thấp). Ví dụ, xem xét một tập dữ liệu với biến phụ thuộc Z và biến độc lập X và Y lấy giá trị nhị phân
set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)
Bằng cách xây dựng, hệ số cho Y lớn gấp đôi hệ số của X khi cả hai được sử dụng để dự đoán Z thông qua hồi quy tuyến tính:
summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.4991 -0.6749 -0.0056 0.6723 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.094793 0.031598 -3.00 0.0027 **
# X 0.999435 0.006352 157.35 <2e-16 ***
# Y 2.099410 0.031919 65.77 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared: 0.2394, Adjusted R-squared: 0.2394
# F-statistic: 1.574e+04 on 2 and 99997 DF, p-value: < 2.2e-16
Tuy nhiên, X giải thích nhiều hơn về phương sai trong Z so với Y (mô hình hồi quy tuyến tính dự đoán Z với X có giá trị R ^ 2 0,2065, trong khi mô hình hồi quy tuyến tính dự đoán Z với Y có R ^ 2 giá trị 0,0511):
summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.2587 -0.6759 0.0038 0.6842 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.962629 0.004564 430.0 <2e-16 ***
# X 1.041424 0.006455 161.3 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared: 0.2065, Adjusted R-squared: 0.2065
# F-statistic: 2.603e+04 on 1 and 99998 DF, p-value: < 2.2e-16
đấu với:
summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.0038 -0.7638 -0.0007 0.7610 5.2288
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.09479 0.03529 -2.686 0.00724 **
# Y 2.60418 0.03547 73.416 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared: 0.05114, Adjusted R-squared: 0.05113
# F-statistic: 5390 on 1 and 99998 DF, p-value: < 2.2e-16
Trường hợp đa cộng đồng
Trường hợp thứ ba trong đó các giá trị hệ số lớn có thể bị đánh lừa sẽ là trong trường hợp đa cộng tuyến đáng kể giữa các biến. Ví dụ, xem xét một tập dữ liệu trong đó X và Y có mối tương quan cao nhưng W không tương quan cao với hai dữ liệu kia; chúng tôi đang cố gắng dự đoán Z:
set.seed(144)
dat <- data.frame(W=rnorm(100000),
X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
# W X Y Z
# W 1.000000e+00 5.191809e-05 5.200434e-05 0.8161636
# X 5.191809e-05 1.000000e+00 9.999995e-01 -0.4079183
# Y 5.200434e-05 9.999995e-01 1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01 1.0000000
Các biến này khá nhiều có cùng giá trị trung bình (0) và phương sai (~ 1) và hồi quy tuyến tính gán các giá trị hệ số cao hơn (về giá trị tuyệt đối) cho X (khoảng 15) và Y (khoảng -16) so với W (khoảng -16) so với W ( khoảng 2):
summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.1886 -0.6760 0.0026 0.6679 4.2232
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.831e-04 3.170e-03 0.058 0.954
# W 2.001e+00 3.172e-03 630.811 < 2e-16 ***
# X 1.509e+01 3.177e+00 4.748 2.05e-06 ***
# Y -1.609e+01 3.177e+00 -5.063 4.13e-07 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared: 0.8326, Adjusted R-squared: 0.8326
# F-statistic: 1.658e+05 on 3 and 99996 DF, p-value: < 2.2e-16
Tuy nhiên, trong số ba biến trong mô hình W là quan trọng nhất: Nếu bạn loại bỏ W khỏi mô hình đầy đủ, R ^ 2 giảm từ 0,833 xuống 0,125, trong khi nếu bạn thả X hoặc Y thì R ^ 2 hầu như không thay đổi.