Hồi quy tuyến tính + bộ gây nhiễu


8

Giả sử tôi rất muốn tiếp cận mức độ ảnh hưởng và tầm quan trọng giữa kết quả Y và biến X được điều chỉnh bởi confounder Z .

Câu hỏi của tôi là nếu có bất kỳ sự khác biệt nào để xác định kích thước hiệu ứng và tầm quan trọng của X giữa kịch bản sau đây.

  1. đặt biến và bộ gây nhiễu với nhau trong mô hình hồi quy tuyến tính. Đây có nghĩa là mô hình hồi quy chỉ phù hợp của Y ~ X + Z , sau đó tính toán hệ số và giá trị p của X .
  2. Lấy phần dư, R từ Y ~ Z , và sau đó khớp mô hình hồi quy của R ~ X , sau đó tính hệ số và giá trị p của nó là X (từ R ~ X).

Tôi tìm hiểu các gây nhiễu từ đây .

Biên tập -----

Tôi đánh giá cao câu trả lời của @Gordon Smyth. Tuy nhiên, từ một nghiên cứu mô phỏng (mã bên dưới), trong đó tôi đã so sánh tỷ lệ phát hiện sai của phương thức1, phương thức 2 và phương thức 3 từ câu trả lời của Gordon Smyth, tôi ngạc nhiên thấy rằng phương pháp 2 có tỷ lệ dương tính giả khá thấp.

Tôi hiểu rằng phương pháp 1 là "sách giáo khoa" chính xác. Tôi tự hỏi chính xác những gì sai với phương thức2? Bên cạnh đó, "Tất cả các mô hình đều sai, nhưng một số là hữu ích".

p1 = p2 = p3 = c()
i=0
while(i<10000){
  y = rnorm(10)
  x = rnorm(10)
  c = rnorm(10)


  # method 1
  p1[i] = summary(lm(y~x + c))$coefficients[2,4]
  # method 2
  p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
  # method 3
  p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]


  i = i+1
}


# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623

1
Tôi không rõ tại sao bạn ngạc nhiên rằng ba phương pháp đang làm những gì tôi đã nói với bạn rằng họ sẽ làm trong câu trả lời của tôi một năm trước. Tôi đã nói với bạn rằng phương pháp 2 sẽ bảo thủ (đó là những gì bạn đã tìm thấy) và phương pháp 3 sẽ chống lại sự bảo thủ (một lần nữa là những gì bạn đã tìm thấy). Dù sao, vấn đề thực sự với phương pháp 2 của bạn chỉ xuất hiện khi X và Z tương quan với nhau cũng như với Y. Tôi đã mở rộng câu trả lời của mình ngay bây giờ để giải thích điều này chi tiết hơn. Bây giờ tôi đưa ra một ví dụ bằng số cho thấy phương pháp 2 có thể nghiêm trọng đến mức nào.
Gordon Smyth

Câu trả lời:


13

Bạn cần điều chỉnh X cũng như Y cho bộ gây nhiễu

Cách tiếp cận đầu tiên (sử dụng hồi quy bội) luôn luôn đúng. Cách tiếp cận thứ hai của bạn không đúng như bạn đã nêu, nhưng có thể được thực hiện gần như đúng với một chút thay đổi. Để thực hiện cách tiếp cận thứ hai bên phải, bạn cần phải thoái cả và riêng rẽ trên . Tôi thích viết cho dư từ hồi quy của trên và cho dư từ hồi quy của và . Chúng ta có thể hiểu là được điều chỉnh cho (giống như của bạn ) và làX Z Y . Z Y Z X . Z X Z Y . Z Y Z R X . Z X Z Y . Z X . ZYXZY.ZYZX.ZXZY.ZYZRX.ZXđiều chỉnh cho . Sau đó, bạn có thể hồi quy trên .ZY.ZX.Z

Với sự thay đổi này, hai phương pháp sẽ cho cùng một hệ số hồi quy và phần dư giống nhau. Tuy nhiên, cách tiếp cận thứ hai vẫn sẽ tính toán không chính xác các mức độ tự do còn lại là thay vì (trong đó là số lượng giá trị dữ liệu cho mỗi biến). Do đó, thống kê kiểm tra cho từ phương pháp thứ hai sẽ hơi quá lớn và giá trị p sẽ hơi quá nhỏ. Nếu số lượng quan sát lớn, thì hai cách tiếp cận sẽ hội tụ và sự khác biệt này sẽ không thành vấn đề.n - 2 n X nn1n2nXn

Thật dễ dàng để biết lý do tại sao mức độ tự do còn lại từ cách tiếp cận thứ hai sẽ không hoàn toàn đúng. Cả hai phương pháp tiếp cận thoái trên cả và . Cách tiếp cận đầu tiên thực hiện nó trong một bước trong khi cách tiếp cận thứ hai thực hiện theo hai bước. Tuy nhiên, cách tiếp cận thứ hai "quên" rằng là kết quả của hồi quy trên và do đó bỏ qua việc trừ đi mức độ tự do cho biến này.X Z Y . Z ZYXZY.ZZ

Biểu đồ biến được thêm vào

Sanford Weisberg (Ứng dụng hồi quy tuyến tính ứng dụng, 1985) được sử dụng để đề xuất âm mưu vs trong một biểu đồ phân tán. Đây được gọi là một âm mưu biến thêm , và nó đã cho một đại diện trực quan hiệu quả của mối quan hệ giữa và sau khi điều chỉnh .X . Z Y X ZY.ZX.ZYXZ

Nếu bạn không điều chỉnh X thì bạn ước tính thấp hệ số hồi quy

Cách tiếp cận thứ hai như bạn đã nói ban đầu, hồi quy trên , là quá bảo thủ. Nó sẽ nhấn mạnh tầm quan trọng của mối quan hệ giữa và điều chỉnh cho vì nó đánh giá thấp kích thước của hệ số hồi quy. Điều này xảy ra bởi vì bạn đang suy thoái trên toàn bộ thay vì chỉ trên một phần của đó là độc lập để . Trong công thức chuẩn cho hệ số hồi quy theo hồi quy tuyến tính đơn giản, tử số (hiệp phương sai của với ) sẽ đúng nhưng mẫu số (phương sai củaX Y X Z Y . Z X X Z Y . Z X XY.ZXYXZY.ZXXZY.ZXX) sẽ quá lớn. Các covariate đúng luôn có một phương sai nhỏ hơn so với thực hiện .XX.ZX

Để làm điều này chính xác, bạn Phương pháp 2 ý dưới ước tính hệ số hồi quy một phần cho bởi một yếu tố của nơi là hệ số tương quan Pearson giữa và .1 - r 2 r X ZX1r2rXZ

Một ví dụ bằng số

Dưới đây là một ví dụ số nhỏ để chỉ ra rằng phương thức biến được thêm vào biểu thị hệ số hồi quy của trênXYX một cách chính xác trong khi cách tiếp cận thứ hai của bạn (Phương pháp 2) có thể sai tùy ý.

XZY

> set.seed(20180525)
> Z <- 10*rnorm(10)
> X <- Z+rnorm(10)
> Y <- X+Z

Y=X+ZXZ

RY.ZX.Z

> R <- Y.Z <- residuals(lm(Y~Z))
> X.Z <- residuals(lm(X~Z))

XY

> coef(lm(Y~X+Z))
(Intercept)           X           Z 
   5.62e-16    1.00e+00    1.00e+00 

X

> coef(lm(R~X.Z))
(Intercept)         X.Z 
  -6.14e-17    1.00e+00 

Ngược lại, Phương pháp 2 của bạn tìm thấy hệ số hồi quy chỉ là 0,01:

> coef(lm(R~X))
(Intercept)           X 
    0.00121     0.01170 

XZ

> 1-cor(X,Z)^2
[1] 0.0117

RX.ZYX

Đã thêm cốt truyện biến

RX

Cốt truyện không chính xác khi sử dụng X


1
Bạn có chắc chắn rằng cả hai phương pháp sẽ cho các hệ số hồi quy giống nhau không? Nếu đó là sự thật thì thay vì thực hiện nhiều hồi quy với k biến độc lập, chúng ta có thể thực hiện hồi quy k với biến độc lập duy nhất và thu được chính xác cùng một cách kết quả nhanh hơn.
Tomek Tarczynski

1
Có lẽ tôi đang thiếu một cái gì đó. Khi tôi cố gắng mô phỏng hệ số này, tôi nhận được hệ số khác nhau cho mã X. R bên dưới set.seed (1234) k <- 100 x <- runif (k) z <- x + runif (k) y <- 5 * x - 3 * z + runif (k) # x hệ số 5.1252 lm (y ~ x + z) mô hình <- lm (y ~ z) res <- model $ dư #x hệ số 2.82 model2 <- lm (res ~ x)
Tomek Tarczynski

1
XZ

Xin chào Gordon, có gì sai với cách tiếp cận thứ hai ngoài vấn đề về mức độ tự do? vd: Về mặt logic?
WCMC

Xin chào Gordon, tôi đã chỉnh sửa câu hỏi của mình. Tôi đánh giá cao nếu bạn có thể có một cái nhìn khi bạn có thời gian.
WCMC
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.