Tôi tự hỏi mối quan hệ chính xác giữa một phần và các hệ số trong mô hình tuyến tính là gì và liệu tôi chỉ nên sử dụng một hoặc cả hai để minh họa tầm quan trọng và ảnh hưởng của các yếu tố.
Theo như tôi biết, với các summary
ước tính của các hệ số và với anova
tổng bình phương cho mỗi yếu tố - tỷ lệ tổng bình phương của một yếu tố chia cho tổng bình phương cộng với phần dư là một phần (đoạn mã sau nằm trong ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Kích thước của các hệ số cho 'trẻ' (0,8) và 'đô thị' (-0,1, khoảng 1/8 so với trước đây, bỏ qua '-') không khớp với phương sai được giải thích ('trẻ' ~ 19500 và 'đô thị' ~ 6790, tức là khoảng 1/3).
Vì vậy, tôi nghĩ rằng tôi sẽ cần phải mở rộng quy mô dữ liệu của mình vì tôi cho rằng nếu phạm vi của một yếu tố rộng hơn nhiều so với phạm vi của yếu tố khác thì hệ số của họ sẽ khó so sánh:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Nhưng điều đó không thực sự tạo ra sự khác biệt, một phần và kích thước của các hệ số (đây là các hệ số được tiêu chuẩn hóa ) vẫn không khớp:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Vì vậy, có công bằng không khi nói rằng 'trẻ' giải thích phương sai nhiều gấp ba lần so với 'đô thị' vì một phần cho 'trẻ' gấp ba lần so với 'đô thị'? Tại sao hệ số 'trẻ' sau đó không gấp ba lần so với 'đô thị' (bỏ qua dấu hiệu)?
Tôi cho rằng câu trả lời cho câu hỏi này sau đó cũng sẽ cho tôi biết câu trả lời cho truy vấn ban đầu của tôi: Tôi nên sử dụng một phần hoặc hệ số để minh họa tầm quan trọng tương đối của các yếu tố? (Bỏ qua hướng ảnh hưởng - dấu hiệu - trong thời điểm hiện tại.)
Chỉnh sửa:
Một phần eta bình phương dường như là một tên khác cho cái mà tôi gọi là một phần . etasq {heplots} là một hàm hữu ích tạo ra kết quả tương tự:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA