Chủ đề bạn đang hỏi là đa cộng đồng . Bạn có thể muốn đọc một số chủ đề trên CV được phân loại theo thẻ đa cộng đồng . @ câu trả lời của ai được liên kết ở trên nói riêng cũng đáng để bạn dành thời gian.
Khẳng định rằng "nếu hai yếu tố dự đoán tương quan và cả hai được đưa vào một mô hình, thì một yếu tố sẽ không đáng kể", là không chính xác. Nếu có tác động thực sự của một biến, xác suất của biến đó có ý nghĩa là hàm của một số thứ, chẳng hạn như độ lớn của hiệu ứng, độ lớn của phương sai lỗi, phương sai của chính biến, lượng dữ liệu bạn có và số lượng các biến khác trong mô hình. Cho dù các biến có tương quan hay không cũng có liên quan, nhưng nó không ghi đè lên các sự kiện này. Hãy xem xét các minh chứng đơn giản sau đây trong R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
N
X1X2R2X11/(1−R2)X110X110×X1
Suy nghĩ về những gì sẽ xảy ra nếu bạn bao gồm cả hai biến tương quan so với chỉ một biến tương tự, nhưng hơi phức tạp hơn so với cách tiếp cận được thảo luận ở trên. Điều này là do không bao gồm một biến có nghĩa là mô hình sử dụng ít bậc tự do hơn, điều này làm thay đổi phương sai dư và mọi thứ được tính từ đó (bao gồm cả phương sai của các hệ số hồi quy). Ngoài ra, nếu biến không bao gồm thực sự được liên kết với phản hồi, phương sai trong phản hồi do biến đó sẽ được đưa vào phương sai còn lại, làm cho nó lớn hơn so với khác. Do đó, một số thứ thay đổi đồng thời (biến có tương quan hay không với biến khác và phương sai dư) và hiệu ứng chính xác của việc giảm / bao gồm cả biến khác sẽ phụ thuộc vào cách các giao dịch đó thay đổi.
Với sự hiểu biết về VIF, đây là câu trả lời cho câu hỏi của bạn:
- Do phương sai của phân phối lấy mẫu của hệ số hồi quy sẽ lớn hơn (theo hệ số của VIF) nếu nó tương quan với các biến khác trong mô hình, giá trị p sẽ cao hơn (nghĩa là ít quan trọng hơn) so với chúng .
- Phương sai của các hệ số hồi quy sẽ lớn hơn, như đã thảo luận.
- Y
- Làm thế nào các giá trị dự đoán và phương sai của chúng sẽ thay đổi là khá phức tạp. Nó phụ thuộc vào mức độ tương quan mạnh mẽ của các biến và cách thức mà chúng dường như được liên kết với biến trả lời của bạn trong dữ liệu của bạn. Về vấn đề này, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Có sự khác biệt nào giữa 'kiểm soát' và 'bỏ qua' các biến khác trong hồi quy bội không?