Ảnh hưởng của việc có các yếu tố dự đoán tương quan trong mô hình hồi quy bội là gì?


45

Tôi đã học được trong lớp mô hình tuyến tính của mình rằng nếu hai yếu tố dự đoán tương quan và cả hai được bao gồm trong một mô hình, thì một mô hình sẽ không đáng kể. Ví dụ, giả sử kích thước của một ngôi nhà và số phòng ngủ tương quan. Khi dự đoán chi phí của một ngôi nhà sử dụng hai dự đoán này, một trong số chúng có thể bị loại bỏ vì cả hai đều cung cấp rất nhiều thông tin giống nhau. Theo trực giác, điều này có ý nghĩa, nhưng tôi có một số câu hỏi kỹ thuật hơn:

  1. Làm thế nào để hiệu ứng này thể hiện chính nó trong các giá trị p của các hệ số hồi quy khi chỉ bao gồm một hoặc bao gồm cả hai yếu tố dự đoán trong mô hình?
  2. Làm thế nào để phương sai của các hệ số hồi quy bị ảnh hưởng bằng cách bao gồm cả hai yếu tố dự đoán trong mô hình hoặc chỉ có một?
  3. Làm thế nào để tôi biết mô hình dự đoán nào sẽ chọn ít quan trọng hơn?
  4. Làm thế nào để chỉ bao gồm một hoặc bao gồm cả hai yếu tố dự đoán thay đổi giá trị / phương sai của chi phí dự báo của tôi?

6
Câu trả lời cho một số câu hỏi của bạn đã xuất hiện trong các chủ đề khác, chẳng hạn như tại stats.stackexchange.com/a/14528 , mô tả một tình huống trong đó mỗi một trong số các chỉ dự đoán tương quan nhẹ dường như không đáng kể mặc dù chúng thuộc về nhau trong mô hình. Đó là một bộ câu hỏi hay nhưng dẫn đến một số lượng lớn các cân nhắc và kỹ thuật; toàn bộ cuốn sách đã được viết về chúng. Xem, ví dụ, Chiến lược mô hình hồi quy của Frank Harrell .
whuber

1
Sử dụng kích thước nhà và phòng ngủ, bạn có thể thấy rằng không đáng kể nếu sự tương quan khác với 1 hoặc -1. Thực tế tồn tại những ngôi nhà 2 phòng ngủ và 3 phòng ngủ có cùng kích thước, và chi phí của chúng có thể khác nhau (đáng kể), làm cho cả hai dự đoán đều có ý nghĩa. Tuy nhiên, kích thước tính bằng mét vuông và kích thước tính theo feet vuông có tương quan = 1 và một trong số chúng luôn có thể bị loại bỏ.
Pere

Câu trả lời:


38

Chủ đề bạn đang hỏi là đa cộng đồng . Bạn có thể muốn đọc một số chủ đề trên CV được phân loại theo thẻ . @ câu trả lời của ai được liên kết ở trên nói riêng cũng đáng để bạn dành thời gian.


Khẳng định rằng "nếu hai yếu tố dự đoán tương quan và cả hai được đưa vào một mô hình, thì một yếu tố sẽ không đáng kể", là không chính xác. Nếu có tác động thực sự của một biến, xác suất của biến đó có ý nghĩa là hàm của một số thứ, chẳng hạn như độ lớn của hiệu ứng, độ lớn của phương sai lỗi, phương sai của chính biến, lượng dữ liệu bạn có và số lượng các biến khác trong mô hình. Cho dù các biến có tương quan hay không cũng có liên quan, nhưng nó không ghi đè lên các sự kiện này. Hãy xem xét các minh chứng đơn giản sau đây trong R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

N


X1X2R2X11/(1R2)X110X110×X1

Suy nghĩ về những gì sẽ xảy ra nếu bạn bao gồm cả hai biến tương quan so với chỉ một biến tương tự, nhưng hơi phức tạp hơn so với cách tiếp cận được thảo luận ở trên. Điều này là do không bao gồm một biến có nghĩa là mô hình sử dụng ít bậc tự do hơn, điều này làm thay đổi phương sai dư và mọi thứ được tính từ đó (bao gồm cả phương sai của các hệ số hồi quy). Ngoài ra, nếu biến không bao gồm thực sự được liên kết với phản hồi, phương sai trong phản hồi do biến đó sẽ được đưa vào phương sai còn lại, làm cho nó lớn hơn so với khác. Do đó, một số thứ thay đổi đồng thời (biến có tương quan hay không với biến khác và phương sai dư) và hiệu ứng chính xác của việc giảm / bao gồm cả biến khác sẽ phụ thuộc vào cách các giao dịch đó thay đổi.


Với sự hiểu biết về VIF, đây là câu trả lời cho câu hỏi của bạn:

  1. Do phương sai của phân phối lấy mẫu của hệ số hồi quy sẽ lớn hơn (theo hệ số của VIF) nếu nó tương quan với các biến khác trong mô hình, giá trị p sẽ cao hơn (nghĩa là ít quan trọng hơn) so với chúng .
  2. Phương sai của các hệ số hồi quy sẽ lớn hơn, như đã thảo luận.
  3. Y
  4. Làm thế nào các giá trị dự đoán và phương sai của chúng sẽ thay đổi là khá phức tạp. Nó phụ thuộc vào mức độ tương quan mạnh mẽ của các biến và cách thức mà chúng dường như được liên kết với biến trả lời của bạn trong dữ liệu của bạn. Về vấn đề này, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Có sự khác biệt nào giữa 'kiểm soát' và 'bỏ qua' các biến khác trong hồi quy bội không?

5

Đây là nhiều bình luận hơn, nhưng tôi muốn bao gồm một biểu đồ và một số mã.

Tôi nghĩ rằng tuyên bố "nếu hai yếu tố dự đoán tương quan và cả hai được bao gồm trong một mô hình, thì một yếu tố sẽ không đáng kể" là sai nếu bạn có nghĩa là "chỉ một". Ý nghĩa thống kê nhị phân không thể được sử dụng để lựa chọn biến.

Đây là ví dụ của tôi bằng cách sử dụng hồi quy tỷ lệ phần trăm mỡ cơ thể trên chu vi đùi, độ dày nếp gấp da * và chu vi cánh tay giữa:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

nhập mô tả hình ảnh ở đây

Như bạn có thể thấy từ bảng hồi quy, mọi thứ đều không đáng kể, mặc dù các giá trị p thay đổi một chút.

β

Vậy làm thế nào để chúng ta biết những dự đoán nào sẽ ít quan trọng hơn? Biến thể trong một biến hồi quy có thể được phân thành hai loại:

  1. Biến thể duy nhất cho mỗi biến hồi quy
  2. Biến thể được chia sẻ bởi các biến hồi quy

R2


* Nếp gấp da là chiều rộng của nếp gấp da được lấy trên cơ tam đầu và được đo bằng thước cặp.


Tôi thích ví dụ của bạn, nhưng nói đúng ra nó sẽ là một ví dụ nếu câu trong câu hỏi ban đầu nói "nếu [...], chỉ có một từ sẽ không đáng kể", nhưng nó không có từ "chỉ".
amip nói rằng Phục hồi lại

@amoeba Đó là một điểm tuyệt vời. Tôi sẽ sửa đổi nhận xét của tôi.
Dimitriy V. Masterov

Bạn có thể cung cấp một số công thức để minh họa thêm: "Khi ước tính các hệ số của từng biến hồi quy, chỉ có biến đầu tiên sẽ được sử dụng. Biến thể chung được bỏ qua vì không thể phân bổ"
mac

3

Như @whuber lưu ý, đây là một câu hỏi phức tạp. Tuy nhiên, câu đầu tiên của bài viết của bạn là một sự đơn giản hóa lớn. Nó thường là trường hợp hai biến (hoặc nhiều) sẽ tương quan và cả hai đều liên quan đến biến phụ thuộc. Việc chúng có ý nghĩa hay không phụ thuộc vào cả kích thước hiệu ứng và kích thước tế bào.

Trong ví dụ của bạn, giả sử rằng, đối với một kích thước nhà nhất định, mọi người thích ít phòng hơn (ít nhất là ở NYC, điều này không hợp lý - nó sẽ chỉ ra các tòa nhà cũ hơn, tường cứng hơn, v.v. và có thể là điểm đánh dấu cho khu phố). Sau đó, cả hai có thể có ý nghĩa, theo hướng ngược lại!

Hoặc, giả sử hai biến số là kích thước nhà và vùng lân cận - những điều này sẽ tương quan, chắc chắn, những ngôi nhà lớn hơn ở những khu vực tốt hơn - nhưng chúng vẫn có thể có ý nghĩa và chắc chắn cả hai đều có liên quan đến giá nhà.

Ngoài ra, chỉ sử dụng phức tạp mặt nạ "tương quan". Các biến có thể liên quan chặt chẽ mà không tương quan.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.