Bạn cần điều chỉnh X cũng như Y cho bộ gây nhiễu
Cách tiếp cận đầu tiên (sử dụng hồi quy bội) luôn luôn đúng. Cách tiếp cận thứ hai của bạn không đúng như bạn đã nêu, nhưng có thể được thực hiện gần như đúng với một chút thay đổi. Để thực hiện cách tiếp cận thứ hai bên phải, bạn cần phải thoái cả và riêng rẽ trên . Tôi thích viết cho dư từ hồi quy của trên và cho dư từ hồi quy của và . Chúng ta có thể hiểu là được điều chỉnh cho (giống như của bạn ) và làX Z Y . Z Y Z X . Z X Z Y . Z Y Z R X . Z X Z Y . Z X . ZYXZY. ZYZX. ZXZY. ZYZRX. ZXđiều chỉnh cho . Sau đó, bạn có thể hồi quy trên .ZY.ZX.Z
Với sự thay đổi này, hai phương pháp sẽ cho cùng một hệ số hồi quy và phần dư giống nhau. Tuy nhiên, cách tiếp cận thứ hai vẫn sẽ tính toán không chính xác các mức độ tự do còn lại là thay vì (trong đó là số lượng giá trị dữ liệu cho mỗi biến). Do đó, thống kê kiểm tra cho từ phương pháp thứ hai sẽ hơi quá lớn và giá trị p sẽ hơi quá nhỏ. Nếu số lượng quan sát lớn, thì hai cách tiếp cận sẽ hội tụ và sự khác biệt này sẽ không thành vấn đề.n - 2 n X nn−1n−2nXn
Thật dễ dàng để biết lý do tại sao mức độ tự do còn lại từ cách tiếp cận thứ hai sẽ không hoàn toàn đúng. Cả hai phương pháp tiếp cận thoái trên cả và . Cách tiếp cận đầu tiên thực hiện nó trong một bước trong khi cách tiếp cận thứ hai thực hiện theo hai bước. Tuy nhiên, cách tiếp cận thứ hai "quên" rằng là kết quả của hồi quy trên và do đó bỏ qua việc trừ đi mức độ tự do cho biến này.X Z Y . Z ZYXZY.ZZ
Biểu đồ biến được thêm vào
Sanford Weisberg (Ứng dụng hồi quy tuyến tính ứng dụng, 1985) được sử dụng để đề xuất âm mưu vs trong một biểu đồ phân tán. Đây được gọi là một âm mưu biến thêm , và nó đã cho một đại diện trực quan hiệu quả của mối quan hệ giữa và sau khi điều chỉnh .X . Z Y X ZY.ZX.ZYXZ
Nếu bạn không điều chỉnh X thì bạn ước tính thấp hệ số hồi quy
Cách tiếp cận thứ hai như bạn đã nói ban đầu, hồi quy trên , là quá bảo thủ. Nó sẽ nhấn mạnh tầm quan trọng của mối quan hệ giữa và điều chỉnh cho vì nó đánh giá thấp kích thước của hệ số hồi quy. Điều này xảy ra bởi vì bạn đang suy thoái trên toàn bộ thay vì chỉ trên một phần của đó là độc lập để . Trong công thức chuẩn cho hệ số hồi quy theo hồi quy tuyến tính đơn giản, tử số (hiệp phương sai của với ) sẽ đúng nhưng mẫu số (phương sai củaX Y X Z Y . Z X X Z Y . Z X XY.ZXYXZY.ZXXZY.ZXX) sẽ quá lớn. Các covariate đúng luôn có một phương sai nhỏ hơn so với thực hiện .XX.ZX
Để làm điều này chính xác, bạn Phương pháp 2 ý dưới ước tính hệ số hồi quy một phần cho bởi một yếu tố của nơi là hệ số tương quan Pearson giữa và .1 - r 2 r X ZX1−r2rXZ
Một ví dụ bằng số
Dưới đây là một ví dụ số nhỏ để chỉ ra rằng phương thức biến được thêm vào biểu thị hệ số hồi quy của trênXYX một cách chính xác trong khi cách tiếp cận thứ hai của bạn (Phương pháp 2) có thể sai tùy ý.
XZY
> set.seed(20180525)
> Z <- 10*rnorm(10)
> X <- Z+rnorm(10)
> Y <- X+Z
Y=X+ZXZ
RY.ZX.Z
> R <- Y.Z <- residuals(lm(Y~Z))
> X.Z <- residuals(lm(X~Z))
XY
> coef(lm(Y~X+Z))
(Intercept) X Z
5.62e-16 1.00e+00 1.00e+00
X
> coef(lm(R~X.Z))
(Intercept) X.Z
-6.14e-17 1.00e+00
Ngược lại, Phương pháp 2 của bạn tìm thấy hệ số hồi quy chỉ là 0,01:
> coef(lm(R~X))
(Intercept) X
0.00121 0.01170
XZ
> 1-cor(X,Z)^2
[1] 0.0117
RX.ZYX
RX