Việc thêm nhiều biến vào một hồi quy đa biến có làm thay đổi hệ số của các biến hiện có không?


16

Nói rằng tôi có một hồi quy đa biến (một số biến độc lập) bao gồm 3 biến. Mỗi biến đó có một hệ số cho trước. Nếu tôi quyết định đưa ra biến thứ 4 và chạy lại hồi quy, hệ số của 3 biến ban đầu có thay đổi không?

Rộng hơn: trong hồi quy đa biến (nhiều biến độc lập), hệ số của một biến đã cho có bị ảnh hưởng bởi hệ số của biến khác không?


1
Vui lòng chỉnh sửa câu hỏi để chính xác hơn. Do multivariablebạn có nghĩa là nhiều biến độc lập ("hồi quy bội") hay nhiều biến phụ thuộc ("hồi quy đa biến" hoặc "MAN (C) OVA")?
ttnphns

1
Nếu câu trả lời là không, sẽ không cần phải thực hiện hồi quy đa biến ngay từ đầu! (chúng tôi chỉ đơn giản là có thể làm nhiều việc không thể thay đổi)
user603

1
Đó là một điểm sâu sắc, @ user603, nhưng tôi nghĩ vẫn có thể có một nơi cho hồi quy bội, trong đó nếu các biến khác có liên quan có ý nghĩa với phản hồi (mặc dù không phải là biến giải thích), chúng có thể làm giảm phương sai còn lại dẫn đến cải thiện sức mạnh và độ chính xác.
gung - Phục hồi Monica

Câu trả lời:


23

Một ước tính tham số trong một mô hình hồi quy (ví β^i ) sẽ thay đổi nếu một biến, Xj , được thêm vào mô hình đó là:

  1. tương quan với biến tương ứng của tham số đó, (đã có trong mô hình) Xi
  2. tương quan với biến trả lời, Y

Một bản beta ước tính sẽ không thay đổi khi một biến mới được thêm vào, nếu một trong hai biến trên không được sửa chữa. Lưu ý rằng cho dù họ là không tương quan trong dân số (ví dụ, , hoặc ρ ( X j , Y ) = 0 ) là không thích hợp. Điều quan trọng là cả hai tương quan mẫu đều chính xác bằng 0 . Điều này về cơ bản sẽ không bao giờ là trường hợp trong thực tế trừ khi bạn đang làm việc với dữ liệu thử nghiệm trong đó các biến được thao tác sao cho chúng không tương thích với thiết kế. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Cũng lưu ý rằng số lượng thay đổi tham số có thể không có ý nghĩa khủng khiếp (điều đó ít nhất phụ thuộc vào lý thuyết của bạn). Hơn nữa, số lượng chúng có thể thay đổi là một hàm của độ lớn của hai tương quan ở trên.

Ở một khía cạnh khác, thật không đúng khi nghĩ về hiện tượng này là "hệ số của một biến đã cho [bị] ảnh hưởng bởi hệ số của biến khác". Đó không phải là betas đang ảnh hưởng lẫn nhau. Hiện tượng này là kết quả tự nhiên của thuật toán mà phần mềm thống kê sử dụng để ước tính các tham số độ dốc. Hãy tưởng tượng một tình huống trong đó gây ra bởi cả X iX j , lần lượt tương quan với nhau. Nếu chỉ có X i trong mô hình, một số biến thể trong Y là do X j sẽ được quy cho không phù hợp với X iYXiXjXiYXjXi. Điều này có nghĩa là giá trị của bị sai lệch; điều này được gọi là sai lệch biến bị bỏ qua . Xi


Điểm rất tốt để làm trong câu cuối cùng đó.
Glen_b -Reinstate Monica

Tôi thảo luận về mặt trái của vấn đề này trong câu trả lời của tôi ở đây: Ước tính thay vì b 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 .
gung - Phục hồi Monica

@gung tôi biết câu trả lời của bạn đã cũ nhưng tôi mới thử ideone.com/6CAkSR trong đó tôi đã tạo x 2 tương quan và x 1 không tương thích với y . Nhưng khi tôi thêm x 1 vào mô hình, tham số của x2 đã thay đổi mặc dù x 1 không tương thích với y . bạn đã nói trong câu trả lời của mình "tương quan với biến trả lời, Y Một bản beta ước tính sẽ không thay đổi khi một biến mới được thêm vào, nếu một trong hai biến trên không được sửa chữa." Tôi có lầm không? yx2x1yx1x1yY
floyd

1
Nó cần phải hoàn toàn không tương quan, không chỉ là không tương quan đáng kể, @floyd. Nếu vậy, bản beta cho không nên thay đổi trừ khi có một số lỗi. s1
gung - Tái lập Monica

@gung cảm ơn rất nhiều vì đã trả lời lại. Bạn có biết một cách tạo ra dữ liệu hoàn hảo như vậy? tôi biết điều đó không thể xảy ra trong cuộc sống thực
floyd

3

Về mặt toán học có thể là các hệ số sẽ không thay đổi, nhưng không chắc là sẽ không có thay đổi nào với dữ liệu thực, ngay cả khi tất cả các biến độc lập độc lập với nhau. Nhưng, khi gặp trường hợp này, các thay đổi (khác với phần bị chặn) sẽ có xu hướng về 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Tuy nhiên, trong thế giới thực, các biến độc lập thường liên quan đến nhau. Trong trường hợp này, việc thêm một biến thứ 4 vào phương trình sẽ thay đổi các hệ số khác, đôi khi rất nhiều.

Sau đó, có thể có tương tác .... nhưng đó là một câu hỏi khác.


1

Nói chung, có, việc thêm một biến làm thay đổi các hệ số trước đó, hầu như luôn luôn.

Thật vậy, đây thực chất là nguyên nhân của nghịch lý Simpson , nơi các hệ số có thể thay đổi, thậm chí là dấu hiệu ngược lại, do các đồng biến bị bỏ qua.

Để điều đó không xảy ra, chúng ta cần các biến mới là trực giao với các biến trước đó. Điều này thường xảy ra trong các thử nghiệm được thiết kế, nhưng rất khó xảy ra trong dữ liệu trong đó mô hình của các biến độc lập là không có kế hoạch.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.