Biến số triệt tiêu trong hồi quy bội là gì và đâu là cách để hiển thị hiệu ứng triệt tiêu một cách trực quan (cơ học hoặc bằng chứng của nó trong kết quả)? Tôi muốn mời mọi người có suy nghĩ, chia sẻ.

— ttnphns
nguồn

Xem Friedman, L., & Wall, M. (2005). Quan điểm đồ họa về sự đàn áp và đa nhân cách trong hồi quy tuyến tính đa. Nhà thống kê người Mỹ , 59 (2), 127-136.

— Ray Koopman

Ah, thật tuyệt và thú vị. Cảm ơn nhiều. Bạn sẽ muốn thêm một câu trả lời dựa trên điều đó? Nó sẽ hữu ích cho nhiều người.

— ttnphns

Có tồn tại một số hiệu ứng hồi quy được nhắc đến thường xuyên, về mặt khái niệm là khác nhau nhưng có nhiều điểm chung khi được nhìn thấy hoàn toàn theo thống kê (xem bài viết này "Hiệu ứng tương đương của hòa giải, gây nhiễu và ức chế" của David MacKinnon và cộng sự, hoặc các bài viết trên Wikipedia)

Người hòa giải: IV truyền đạt hiệu lực (hoàn toàn một phần) của IV khác đối với DV.
Confounder: IV cấu thành hoặc ngăn chặn, hoàn toàn hoặc một phần, ảnh hưởng của IV khác đến DV.
Người điều hành: IV, thay đổi, quản lý sức mạnh của hiệu ứng của IV khác trên DV. Theo thống kê, nó được gọi là tương tác giữa hai IV.
Suppressor: IV (một hòa giải viên hoặc một người điều hành về mặt khái niệm) bao gồm tăng cường hiệu quả của một IV khác trên DV.

Tôi sẽ không thảo luận về mức độ nào một số hoặc tất cả chúng giống nhau về mặt kỹ thuật (đối với điều đó, hãy đọc bài viết được liên kết ở trên). Mục đích của tôi là cố gắng thể hiện đồ họa những gì là triệt tiêu . Định nghĩa trên là "chất kiềm chế là một biến mà bao gồm tăng cường ảnh hưởng của người khác IV trên DV" Dường như với tôi có khả năng mở rộng bởi vì nó không nói bất cứ điều gì về cơ chế tăng cường như vậy. Dưới đây tôi đang thảo luận về một cơ chế - cơ chế duy nhất tôi coi là đàn áp. Nếu có các cơ chế khác nữa (như hiện tại, tôi đã không cố gắng thiền bất kỳ cơ chế nào khác) thì định nghĩa "rộng" ở trên nên được coi là không chính xác hoặc định nghĩa về đàn áp của tôi nên được coi là quá hẹp.

Định nghĩa (theo cách hiểu của tôi)

Suppressor là biến độc lập, khi được thêm vào mô hình, làm tăng R-vuông quan sát chủ yếu là do phần dư của mô hình còn lại mà không có nó, và không phải do sự liên kết của chính nó với DV (tương đối yếu). Chúng ta biết rằng sự gia tăng của bình phương R để đáp ứng với việc thêm IV là tương quan phần bình phương của IV đó trong mô hình mới đó. Theo cách này, nếu tương quan một phần của IV với DV lớn hơn (theo giá trị tuyệt đối) so với không có thứ tự giữa chúng, IV đó là một bộ triệt. $r$

Vì vậy, một bộ triệt chủ yếu "triệt tiêu" lỗi của mô hình rút gọn, yếu như chính yếu tố dự đoán. Thuật ngữ lỗi là bổ sung cho dự đoán. Dự đoán là "dự kiến" hoặc "chia sẻ giữa" các IV (hệ số hồi quy) và thuật ngữ lỗi ("bổ sung" cho các hệ số) cũng vậy. Bộ triệt tiêu triệt tiêu các thành phần lỗi như vậy không đồng đều: lớn hơn đối với một số IV, ít hơn đối với các IV khác. Đối với những IV "có" các thành phần như vậy, nó ngăn chặn rất nhiều, nó cho vay hỗ trợ đáng kể bằng cách thực sự nâng cao hệ số hồi quy của chúng .

Không có hiệu ứng triệt tiêu mạnh xảy ra thường xuyên và dữ dội (một ví dụ trên trang web này). Ức chế mạnh thường được giới thiệu một cách có ý thức. Một nhà nghiên cứu tìm kiếm một đặc điểm phải tương quan với DV càng yếu càng tốt và đồng thời sẽ tương quan với thứ gì đó trong IV quan tâm được coi là không liên quan, dự đoán-void, đối với DV. Anh ta đưa nó vào mô hình và nhận được sự gia tăng đáng kể về sức mạnh dự đoán của IV đó. Hệ số của bộ triệt thường không được giải thích.

Tôi có thể tóm tắt định nghĩa của mình như sau [theo câu trả lời của @ Jake và bình luận của @ gung]:

Định nghĩa chính thức (thống kê): bộ triệt là IV với tương quan một phần lớn hơn tương quan bậc 0 (với phụ thuộc).
Định nghĩa khái niệm (thực tế): định nghĩa chính thức ở trên + tương quan bậc 0 là nhỏ, do đó bộ triệt âm không phải là một công cụ dự đoán âm thanh.

"Người giám sát" chỉ là vai trò của IV trong một mô hình cụ thể , không phải là đặc điểm của biến riêng biệt. Khi các IV khác được thêm vào hoặc loại bỏ, bộ triệt có thể đột ngột ngừng triệt tiêu hoặc tiếp tục triệt tiêu hoặc thay đổi trọng tâm của hoạt động triệt tiêu.

Tình hình hồi quy bình thường

Bức ảnh đầu tiên bên dưới cho thấy một hồi quy điển hình với hai yếu tố dự đoán (chúng ta sẽ nói về hồi quy tuyến tính). Hình ảnh được sao chép từ đây , nơi nó được giải thích chi tiết hơn. Tóm lại, các yếu tố dự đoán tương quan vừa phải (= có góc nhọn giữa chúng) và khoảng 2 - không gian hai chiều "mặt phẳng X". Biến phụ thuộc được chiếu lên nó trực giao, để lại các biến dự đoán và dư với st. độ lệch bằng độ dài của . R-square của hồi quy là góc giữa và $X_1$ $X_2$ $Y$ $Y'$ $e$ $Y$ $Y'$ và hai hệ số hồi quy có liên quan trực tiếp đến tọa độ nghiêng và tương ứng. Tình huống này tôi gọi là bình thường hoặc điển hình vì cả và tương quan với (góc xiên tồn tại giữa mỗi độc lập và người phụ thuộc) và các yếu tố dự đoán cạnh tranh để dự đoán vì chúng có mối tương quan với nhau. $b_1$ $b_2$ $X_1$ $X_2$ $Y$

nhập mô tả hình ảnh ở đây

Tình hình đàn áp

Nó được hiển thị trên hình ảnh tiếp theo. Cái này giống như cái trước; tuy nhiên hiện tại vectơ hướng hơi xa người xem và đã thay đổi hướng đáng kể. hoạt động như một bộ triệt. Lưu ý đầu tiên của tất cả những gì nó hầu như không tương quan với . Do đó nó không thể là một công cụ dự đoán có giá trị . Thứ hai. Hãy tưởng tượng vắng mặt và bạn chỉ dự đoán bằng ; dự đoán của hồi quy một biến này được mô tả như vector đỏ, lỗi như vector, và hệ số được cho bởi $Y$ $X_2$ $X_2$ $Y$ $X_2$ $X_1$ $Y^*$ $e^*$ $b^*$ tọa độ (là điểm cuối của ). $Y^*$

nhập mô tả hình ảnh ở đây

Bây giờ đưa mình trở lại với mô hình đầy đủ và thông báo rằng là khá tương quan với . Do đó, khi được giới thiệu trong mô hình, có thể giải thích một phần đáng kể lỗi đó của mô hình rút gọn, cắt giảm thành . Chòm sao này: (1) không phải là đối thủ của với tư cách là người dự đoán ; và (2) là một người bụi để nhận ra sự khó lường của , - làm cho trở thành $X_2$ $e^*$ $X_2$ $e^*$ $e$ $X_2$ $X_1$ $X_2$ $X_1$ $X_2$ đàn áp. Theo kết quả của tác động của nó, sức mạnh tiên đoán của đã phát triển đến một mức độ nào: lớn hơn . $X_1$ $b_1$ $b^*$

Chà, tại sao được gọi là bộ triệt cho và làm thế nào nó có thể củng cố nó khi "triệt tiêu" nó? Nhìn vào bức tranh tiếp theo. $X_2$ $X_1$

nhập mô tả hình ảnh ở đây

$X_1$ $Y$ $e^*$ $X_1$ $Y$ $X_2$ $Y$ bất kỳ nhiều, phần có liên quan trông mạnh mẽ hơn. Một bộ triệt không phải là một công cụ dự đoán mà là một người hỗ trợ cho người khác / người dự đoán khác / s. Bởi vì nó cạnh tranh với những gì cản trở họ dự đoán.

Dấu hiệu của hệ số hồi quy của bộ triệt

$e^*$ $X_2$

Ức chế và thay đổi dấu hiệu hệ số

Thêm một biến sẽ phục vụ một supressor có thể cũng như không thể thay đổi dấu hiệu của một số hệ số của các biến khác. Hiệu ứng "Ức chế" và "thay đổi dấu hiệu" không giống nhau. Hơn nữa, tôi tin rằng một người đàn áp không bao giờ có thể thay đổi dấu hiệu của những người dự đoán mà họ phục vụ người đàn áp. (Sẽ là một khám phá gây sốc khi thêm mục đích triệt tiêu nhằm tạo điều kiện cho một biến số và sau đó tìm thấy nó thực sự trở nên mạnh hơn nhưng theo hướng ngược lại! Tôi rất biết ơn nếu ai đó có thể cho tôi thấy điều đó là có thể.)

Biểu đồ đàn áp và Venn

Tình huống hồi quy bình thường thường được giải thích với sự trợ giúp của biểu đồ Venn.

nhập mô tả hình ảnh ở đây

$Y$ $X_1$ $X_2$ $r_{YX_1}^2$ $r_{YX_2}^2$ $r_{Y(X_1.X_2)}^2$ $r_{Y(X_2.X_1)}^2$ $r_{YX_1.X_2}^2$ $r_{YX_2.X_1}^2$

$X_2$ $X_2$ $X_1$

Dữ liệu mẫu

         y         x1         x2

1.64454000  .35118800 1.06384500
1.78520400  .20000000 -1.2031500
-1.3635700 -.96106900 -.46651400
 .31454900  .80000000 1.17505400
 .31795500  .85859700 -.10061200
 .97009700 1.00000000 1.43890400
 .66438800  .29267000 1.20404800
-.87025200 -1.8901800 -.99385700
1.96219200 -.27535200 -.58754000
1.03638100 -.24644800 -.11083400
 .00741500 1.44742200 -.06923400
1.63435300  .46709500  .96537000
 .21981300  .34809500  .55326800
-.28577400  .16670800  .35862100
1.49875800 -1.1375700 -2.8797100
1.67153800  .39603400 -.81070800
1.46203600 1.40152200 -.05767700
-.56326600 -.74452200  .90471600
 .29787400 -.92970900  .56189800
-1.5489800 -.83829500 -1.2610800

Kết quả hồi quy tuyến tính:

$X_2$ $Y$ $-.224$ $X_1$ $.419$ $.538$

$X_1$ $X_1$ $r$ $Y$ $0$

Bằng cách này, tổng các tương quan phần bình phương vượt quá R bình phương : .4750^2+(-.2241)^2 = .2758 > .2256, sẽ không xảy ra trong tình huống hồi quy bình thường (xem sơ đồ Venn ở trên).

PS Sau khi kết thúc câu trả lời của tôi, tôi đã tìm thấy câu trả lời này (bởi @gung) với một sơ đồ đơn giản (sơ đồ) đẹp, có vẻ phù hợp với những gì tôi đã trình bày ở trên bởi các vectơ.

— ttnphns
nguồn

+6, điều này thực sự tuyệt vời, và sẽ giúp mọi người hiểu rõ hơn về chủ đề này trong tương lai. Tôi sẽ chỉ ra câu trả lời khác của tôi (mà tôi đồng ý là phù hợp với bạn ở đây); nó có thể hữu ích nếu mọi người muốn cố gắng hình dung những điều này từ một quan điểm khác.

— gung - Phục hồi Monica

Một vài điểm nhỏ: 1 Về tuyên bố của bạn rằng bộ triệt sẽ không tương quan w / Y, b / ce * có tương quan w / Y (xem thêm ở đây ), nếu X1 không được đưa vào mô hình, X2 nên được tương quan w / Y (tất nhiên 'đáng kể' phụ thuộc vào N, tất nhiên). 2 Cho dù dấu hiệu trên x1 có thể thay đổi (b * -> b1) hay không, nếu X1 rất gần với w / Y không được sửa chữa trong trường hợp không có bộ triệt & w / SE lớn, có thể lật ký hiệu trên X1 trong mô hình rút gọn chỉ có cơ hội do lỗi lấy mẫu, nhưng điều này không phổ biến & tối thiểu.

— gung - Phục hồi Monica

@gung, cảm ơn. (1) Tôi khao khát câu trả lời của bạn (và của người khác) có thể giúp cải thiện / sửa lỗi của tôi. Vì vậy, hãy đến, khi bạn có thời gian, để đăng những suy nghĩ bạn đã phác thảo trong bình luận của bạn; (2) xin đừng làm những điều "tiền thưởng" này: Tôi không viết hoa; những người dùng khác, những người "trẻ hơn" có thể xứng đáng với điều đó.

— ttnphns

Tôi không nghĩ câu trả lời khác của tôi là "tốt hơn" của bạn; trong thực tế, tôi nghĩ rằng của bạn là toàn diện / chung hơn. Tôi nghĩ rằng nó nói một số điều tương tự theo một cách hơi khác, vì vậy nó có thể hữu ích cho một số độc giả để xem xét cả hai. Nếu bạn muốn tôi có thể tập hợp một bài viết nhỏ vào phần bình luận của tôi ở trên, nhưng tôi không muốn sao chép và dán câu trả lời khác của mình ở đây, và tôi không có gì để thêm vào đó (hoặc của bạn). Trả lại tiền thưởng, nó sẽ phục vụ để thu hút sự chú ý / lượt xem cho chủ đề này, điều này sẽ tốt, tôi không thể trao giải cho nó, nhưng điều đó có vẻ ngớ ngẩn.

— gung - Phục hồi Monica

Tôi khá thích những cách suy nghĩ hình học vector về mọi thứ. Bạn có phiền nếu tôi hỏi làm thế nào bạn vẽ cốt truyện của bạn? Có phải "bằng chuột" trong một cái gì đó giống với MS Paint, hoặc sử dụng một số phần mềm phức tạp hơn? Tôi đã vẽ những thứ như thế này bằng chuột trước đây và tự hỏi liệu có cách nào dễ dàng / hiệu quả hơn không.

— Jake Westfall

Dưới đây là một góc nhìn hình học khác về sự triệt tiêu, nhưng thay vì ở trong không gian quan sát như ví dụ của @ ttnphns, thì đây là trong không gian biến đổi , không gian nơi các phân tán hàng ngày sống.

$\hat{y}_i=x_i+z_i$ $x$ $z$ $x$ $z$ $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ $\hat{x}_i=-\frac{1}{2}z_i$

Chúng ta có thể vẽ phương trình hồi quy của mình dưới dạng một mặt phẳng trong không gian biến đổi trông như thế này:

máy bay

Trường hợp gây nhiễu

$x$ $z$ $y$ $x$ $x$ $y$ $x$ $z$ $z$ $x$ $z$ $y$ $x$ $x$ $x$

$x$ $x$ $x$ $x$ $x$

bối rối

$x$ $z$ $z$

$x$ $z$ $x$ $x$ $z$ $x$ $z$ $x$ $z$ $x$ $z$ $\hat{x}_i=\frac{1}{2}z_i$ $x$ $z$ $y$ $x$ $\Delta x + \Delta z = 1 + \frac{1}{2} = 1.5$

$z$ $x$ $z$

$x$

Trường hợp đàn áp

$z$ $y$ $x$ $x$ $y$ $x$ $z$ $z$ $x$ $x$ $z$ $z$ $x$ $x$

đàn áp

$z$ $x$ $\hat{x}_i=-\frac{1}{2}z_i$ $x$ $z$ $y$ $x$ $\Delta x + \Delta z = 1 + -\frac{1}{2} = 0.5$ $z$

Bộ dữ liệu minh họa

Trong trường hợp bạn muốn chơi xung quanh với các ví dụ này, đây là một số mã R để tạo dữ liệu tuân theo các giá trị mẫu và chạy các hồi quy khác nhau.

library(MASS) # for mvrnorm()
set.seed(7310383)

# confounding case --------------------------------------------------------

mat <- rbind(c(5,1.5,1.5),
             c(1.5,1,.5),
             c(1.5,.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y         x         z
# y 1.0000000 0.6708204 0.6708204
# x 0.6708204 1.0000000 0.5000000
# z 0.6708204 0.5000000 1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#     -1.57e-17     1.50e+00  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#      3.14e-17     1.00e+00     1.00e+00  
# @ttnphns comment: for x, zero-order r = .671 > part r = .387
#                   for z, zero-order r = .671 > part r = .387

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#     6.973e-33    5.000e-01 

# suppression case --------------------------------------------------------

mat <- rbind(c(2,.5,.5),
             c(.5,1,-.5),
             c(.5,-.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")

cor(dat)
#           y          x          z
# y 1.0000000  0.3535534  0.3535534
# x 0.3535534  1.0000000 -0.5000000
# z 0.3535534 -0.5000000  1.0000000

lm(y ~ x, data=dat)
# 
# Call:
#   lm(formula = y ~ x, data = dat)
# 
# Coefficients:
#   (Intercept)            x  
#    -4.318e-17    5.000e-01  

lm(y ~ x + z, data=dat)
# 
# Call:
#   lm(formula = y ~ x + z, data = dat)
# 
# Coefficients:
#   (Intercept)            x            z  
#    -3.925e-17    1.000e+00    1.000e+00  
# @ttnphns comment: for x, zero-order r = .354 < part r = .612
#                   for z, zero-order r = .354 < part r = .612

lm(x ~ z, data=dat)
# 
# Call:
#   lm(formula = x ~ z, data = dat)
# 
# Coefficients:
#   (Intercept)            z  
#      1.57e-17    -5.00e-01

— Jake Westfall
nguồn

Jake, tôi có thể yêu cầu bạn cung cấp câu trả lời của bạn với dữ liệu thực tế không? Vui lòng đưa ra ba giá trị biến cho hai trường hợp bạn xem xét. Cảm ơn. (Ý tôi là, đừng vẽ nó, chỉ cần đưa nó)

— ttnphns

x

$x$

z

$z$

@ttnphns Được rồi tôi chỉnh sửa câu trả lời của mình. Cho tôi biết bạn nghĩ gì.

— Jake Westfall

Xin vui lòng, đề nghị một hạt giống số ngẫu nhiên cụ thể trong mã của bạn. Tôi sẽ muốn sao chép chính xác kết quả của bạn ở đây trực tuyến: pbil.univ-lyon1.fr/Rweb (vì tôi không có R trên máy tính của mình - Tôi không phải là người dùng R).

— ttnphns

@ttnphns Bạn không cần một hạt giống để sao chép các tập dữ liệu mẫu. Bất kỳ tập dữ liệu nào được tạo bằng mã ở trên sẽ luôn có chính xác các hệ số tương quan / hồi quy và phương sai được hiển thị ở trên, mặc dù các giá trị dữ liệu cụ thể có thể khác nhau (không có hậu quả). Đối với những người không thích cài đặt / sử dụng R, tôi đã tải lên hai bộ dữ liệu được tạo bằng mã ở trên mà bạn có thể tải xuống và phân tích bằng gói thống kê mà bạn chọn. Các liên kết là: (1) psych.colorado.edu/~westfaja/confounding.csv (2) psych.colorado.edu/~westfaja/suppression.csv . Tôi đoán tôi sẽ thêm một hạt giống.

— Jake Westfall

Đây là cách tôi nghĩ về hiệu ứng triệt tiêu. Nhưng xin vui lòng cho tôi biết nếu tôi sai.

Dưới đây là một ví dụ về kết quả nhị phân (phân loại, hồi quy logistic). Chúng ta có thể thấy rằng không có sự khác biệt đáng kể trong X1, không có sự khác biệt về X2, nhưng đặt X1 và X2 lại với nhau (nghĩa là x1 đúng cho x2 hoặc ngược lại) và các mẫu có thể được phân loại gần như hoàn hảo và do đó các biến hiện rất có ý nghĩa .

— rep_ho
nguồn

Bạn có thể in dữ liệu tương ứng với hình ảnh của bạn, trong câu trả lời của bạn?

— ttnphns

Bạn có thể đưa ra vore cho những con số?

— fossekall

Hiệu ứng ức chế trong hồi quy: định nghĩa và giải thích / mô tả trực quan

Định nghĩa (theo cách hiểu của tôi)

Tình hình hồi quy bình thường

Tình hình đàn áp

Dấu hiệu của hệ số hồi quy của bộ triệt

Ức chế và thay đổi dấu hiệu hệ số

Biểu đồ đàn áp và Venn

Dữ liệu mẫu

Trường hợp gây nhiễu

Trường hợp đàn áp

Bộ dữ liệu minh họa