Biến số triệt tiêu trong hồi quy bội là gì và đâu là cách để hiển thị hiệu ứng triệt tiêu một cách trực quan (cơ học hoặc bằng chứng của nó trong kết quả)? Tôi muốn mời mọi người có suy nghĩ, chia sẻ.
Biến số triệt tiêu trong hồi quy bội là gì và đâu là cách để hiển thị hiệu ứng triệt tiêu một cách trực quan (cơ học hoặc bằng chứng của nó trong kết quả)? Tôi muốn mời mọi người có suy nghĩ, chia sẻ.
Câu trả lời:
Có tồn tại một số hiệu ứng hồi quy được nhắc đến thường xuyên, về mặt khái niệm là khác nhau nhưng có nhiều điểm chung khi được nhìn thấy hoàn toàn theo thống kê (xem bài viết này "Hiệu ứng tương đương của hòa giải, gây nhiễu và ức chế" của David MacKinnon và cộng sự, hoặc các bài viết trên Wikipedia)
Tôi sẽ không thảo luận về mức độ nào một số hoặc tất cả chúng giống nhau về mặt kỹ thuật (đối với điều đó, hãy đọc bài viết được liên kết ở trên). Mục đích của tôi là cố gắng thể hiện đồ họa những gì là triệt tiêu . Định nghĩa trên là "chất kiềm chế là một biến mà bao gồm tăng cường ảnh hưởng của người khác IV trên DV" Dường như với tôi có khả năng mở rộng bởi vì nó không nói bất cứ điều gì về cơ chế tăng cường như vậy. Dưới đây tôi đang thảo luận về một cơ chế - cơ chế duy nhất tôi coi là đàn áp. Nếu có các cơ chế khác nữa (như hiện tại, tôi đã không cố gắng thiền bất kỳ cơ chế nào khác) thì định nghĩa "rộng" ở trên nên được coi là không chính xác hoặc định nghĩa về đàn áp của tôi nên được coi là quá hẹp.
Suppressor là biến độc lập, khi được thêm vào mô hình, làm tăng R-vuông quan sát chủ yếu là do phần dư của mô hình còn lại mà không có nó, và không phải do sự liên kết của chính nó với DV (tương đối yếu). Chúng ta biết rằng sự gia tăng của bình phương R để đáp ứng với việc thêm IV là tương quan phần bình phương của IV đó trong mô hình mới đó. Theo cách này, nếu tương quan một phần của IV với DV lớn hơn (theo giá trị tuyệt đối) so với không có thứ tự giữa chúng, IV đó là một bộ triệt.
Vì vậy, một bộ triệt chủ yếu "triệt tiêu" lỗi của mô hình rút gọn, yếu như chính yếu tố dự đoán. Thuật ngữ lỗi là bổ sung cho dự đoán. Dự đoán là "dự kiến" hoặc "chia sẻ giữa" các IV (hệ số hồi quy) và thuật ngữ lỗi ("bổ sung" cho các hệ số) cũng vậy. Bộ triệt tiêu triệt tiêu các thành phần lỗi như vậy không đồng đều: lớn hơn đối với một số IV, ít hơn đối với các IV khác. Đối với những IV "có" các thành phần như vậy, nó ngăn chặn rất nhiều, nó cho vay hỗ trợ đáng kể bằng cách thực sự nâng cao hệ số hồi quy của chúng .
Không có hiệu ứng triệt tiêu mạnh xảy ra thường xuyên và dữ dội (một ví dụ trên trang web này). Ức chế mạnh thường được giới thiệu một cách có ý thức. Một nhà nghiên cứu tìm kiếm một đặc điểm phải tương quan với DV càng yếu càng tốt và đồng thời sẽ tương quan với thứ gì đó trong IV quan tâm được coi là không liên quan, dự đoán-void, đối với DV. Anh ta đưa nó vào mô hình và nhận được sự gia tăng đáng kể về sức mạnh dự đoán của IV đó. Hệ số của bộ triệt thường không được giải thích.
Tôi có thể tóm tắt định nghĩa của mình như sau [theo câu trả lời của @ Jake và bình luận của @ gung]:
"Người giám sát" chỉ là vai trò của IV trong một mô hình cụ thể , không phải là đặc điểm của biến riêng biệt. Khi các IV khác được thêm vào hoặc loại bỏ, bộ triệt có thể đột ngột ngừng triệt tiêu hoặc tiếp tục triệt tiêu hoặc thay đổi trọng tâm của hoạt động triệt tiêu.
Bức ảnh đầu tiên bên dưới cho thấy một hồi quy điển hình với hai yếu tố dự đoán (chúng ta sẽ nói về hồi quy tuyến tính). Hình ảnh được sao chép từ đây , nơi nó được giải thích chi tiết hơn. Tóm lại, các yếu tố dự đoán tương quan vừa phải (= có góc nhọn giữa chúng) và X 2 khoảng 2 - không gian hai chiều "mặt phẳng X". Biến phụ thuộc Y được chiếu lên nó trực giao, để lại các biến dự đoán Y ' và dư với st. độ lệch bằng độ dài của e . R-square của hồi quy là góc giữa Y và Y 'và hai hệ số hồi quy có liên quan trực tiếp đến tọa độ nghiêng và b 2 tương ứng. Tình huống này tôi gọi là bình thường hoặc điển hình vì cả X 1 và X 2 tương quan với Y (góc xiên tồn tại giữa mỗi độc lập và người phụ thuộc) và các yếu tố dự đoán cạnh tranh để dự đoán vì chúng có mối tương quan với nhau.
Nó được hiển thị trên hình ảnh tiếp theo. Cái này giống như cái trước; tuy nhiên hiện tại vectơ hướng hơi xa người xem và X 2 đã thay đổi hướng đáng kể. X 2 hoạt động như một bộ triệt. Lưu ý đầu tiên của tất cả những gì nó hầu như không tương quan với Y . Do đó nó không thể là một công cụ dự đoán có giá trị . Thứ hai. Hãy tưởng tượng X 2 vắng mặt và bạn chỉ dự đoán bằng X 1 ; dự đoán của hồi quy một biến này được mô tả như Y * vector đỏ, lỗi như e * vector, và hệ số được cho bởi b *tọa độ (là điểm cuối của ).
Bây giờ đưa mình trở lại với mô hình đầy đủ và thông báo rằng là khá tương quan với e * . Do đó, X 2 khi được giới thiệu trong mô hình, có thể giải thích một phần đáng kể lỗi đó của mô hình rút gọn, cắt giảm e ∗ thành e . Chòm sao này: (1) X 2 không phải là đối thủ của X 1 với tư cách là người dự đoán ; và (2) X 2 là một người bụi để nhận ra sự khó lường của X 1 , - làm cho X 2 trở thành đàn áp. Theo kết quả của tác động của nó, sức mạnh tiên đoán của đã phát triển đến một mức độ nào: b 1 lớn hơn b * .
Chà, tại sao được gọi là bộ triệt cho X 1 và làm thế nào nó có thể củng cố nó khi "triệt tiêu" nó? Nhìn vào bức tranh tiếp theo.
bất kỳ nhiều, phần có liên quan trông mạnh mẽ hơn. Một bộ triệt không phải là một công cụ dự đoán mà là một người hỗ trợ cho người khác / người dự đoán khác / s. Bởi vì nó cạnh tranh với những gì cản trở họ dự đoán.
Thêm một biến sẽ phục vụ một supressor có thể cũng như không thể thay đổi dấu hiệu của một số hệ số của các biến khác. Hiệu ứng "Ức chế" và "thay đổi dấu hiệu" không giống nhau. Hơn nữa, tôi tin rằng một người đàn áp không bao giờ có thể thay đổi dấu hiệu của những người dự đoán mà họ phục vụ người đàn áp. (Sẽ là một khám phá gây sốc khi thêm mục đích triệt tiêu nhằm tạo điều kiện cho một biến số và sau đó tìm thấy nó thực sự trở nên mạnh hơn nhưng theo hướng ngược lại! Tôi rất biết ơn nếu ai đó có thể cho tôi thấy điều đó là có thể.)
Tình huống hồi quy bình thường thường được giải thích với sự trợ giúp của biểu đồ Venn.
y x1 x2
1.64454000 .35118800 1.06384500
1.78520400 .20000000 -1.2031500
-1.3635700 -.96106900 -.46651400
.31454900 .80000000 1.17505400
.31795500 .85859700 -.10061200
.97009700 1.00000000 1.43890400
.66438800 .29267000 1.20404800
-.87025200 -1.8901800 -.99385700
1.96219200 -.27535200 -.58754000
1.03638100 -.24644800 -.11083400
.00741500 1.44742200 -.06923400
1.63435300 .46709500 .96537000
.21981300 .34809500 .55326800
-.28577400 .16670800 .35862100
1.49875800 -1.1375700 -2.8797100
1.67153800 .39603400 -.81070800
1.46203600 1.40152200 -.05767700
-.56326600 -.74452200 .90471600
.29787400 -.92970900 .56189800
-1.5489800 -.83829500 -1.2610800
Kết quả hồi quy tuyến tính:
Bằng cách này, tổng các tương quan phần bình phương vượt quá R bình phương : .4750^2+(-.2241)^2 = .2758 > .2256
, sẽ không xảy ra trong tình huống hồi quy bình thường (xem sơ đồ Venn ở trên).
PS Sau khi kết thúc câu trả lời của tôi, tôi đã tìm thấy câu trả lời này (bởi @gung) với một sơ đồ đơn giản (sơ đồ) đẹp, có vẻ phù hợp với những gì tôi đã trình bày ở trên bởi các vectơ.
Dưới đây là một góc nhìn hình học khác về sự triệt tiêu, nhưng thay vì ở trong không gian quan sát như ví dụ của @ ttnphns, thì đây là trong không gian biến đổi , không gian nơi các phân tán hàng ngày sống.
Chúng ta có thể vẽ phương trình hồi quy của mình dưới dạng một mặt phẳng trong không gian biến đổi trông như thế này:
Trong trường hợp bạn muốn chơi xung quanh với các ví dụ này, đây là một số mã R để tạo dữ liệu tuân theo các giá trị mẫu và chạy các hồi quy khác nhau.
library(MASS) # for mvrnorm()
set.seed(7310383)
# confounding case --------------------------------------------------------
mat <- rbind(c(5,1.5,1.5),
c(1.5,1,.5),
c(1.5,.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")
cor(dat)
# y x z
# y 1.0000000 0.6708204 0.6708204
# x 0.6708204 1.0000000 0.5000000
# z 0.6708204 0.5000000 1.0000000
lm(y ~ x, data=dat)
#
# Call:
# lm(formula = y ~ x, data = dat)
#
# Coefficients:
# (Intercept) x
# -1.57e-17 1.50e+00
lm(y ~ x + z, data=dat)
#
# Call:
# lm(formula = y ~ x + z, data = dat)
#
# Coefficients:
# (Intercept) x z
# 3.14e-17 1.00e+00 1.00e+00
# @ttnphns comment: for x, zero-order r = .671 > part r = .387
# for z, zero-order r = .671 > part r = .387
lm(x ~ z, data=dat)
#
# Call:
# lm(formula = x ~ z, data = dat)
#
# Coefficients:
# (Intercept) z
# 6.973e-33 5.000e-01
# suppression case --------------------------------------------------------
mat <- rbind(c(2,.5,.5),
c(.5,1,-.5),
c(.5,-.5,1))
dat <- data.frame(mvrnorm(n=50, mu=numeric(3), empirical=T, Sigma=mat))
names(dat) <- c("y","x","z")
cor(dat)
# y x z
# y 1.0000000 0.3535534 0.3535534
# x 0.3535534 1.0000000 -0.5000000
# z 0.3535534 -0.5000000 1.0000000
lm(y ~ x, data=dat)
#
# Call:
# lm(formula = y ~ x, data = dat)
#
# Coefficients:
# (Intercept) x
# -4.318e-17 5.000e-01
lm(y ~ x + z, data=dat)
#
# Call:
# lm(formula = y ~ x + z, data = dat)
#
# Coefficients:
# (Intercept) x z
# -3.925e-17 1.000e+00 1.000e+00
# @ttnphns comment: for x, zero-order r = .354 < part r = .612
# for z, zero-order r = .354 < part r = .612
lm(x ~ z, data=dat)
#
# Call:
# lm(formula = x ~ z, data = dat)
#
# Coefficients:
# (Intercept) z
# 1.57e-17 -5.00e-01
R
, tôi đã tải lên hai bộ dữ liệu được tạo bằng mã ở trên mà bạn có thể tải xuống và phân tích bằng gói thống kê mà bạn chọn. Các liên kết là: (1) psych.colorado.edu/~westfaja/confounding.csv (2) psych.colorado.edu/~westfaja/suppression.csv . Tôi đoán tôi sẽ thêm một hạt giống.
Đây là cách tôi nghĩ về hiệu ứng triệt tiêu. Nhưng xin vui lòng cho tôi biết nếu tôi sai.
Dưới đây là một ví dụ về kết quả nhị phân (phân loại, hồi quy logistic). Chúng ta có thể thấy rằng không có sự khác biệt đáng kể trong X1, không có sự khác biệt về X2, nhưng đặt X1 và X2 lại với nhau (nghĩa là x1 đúng cho x2 hoặc ngược lại) và các mẫu có thể được phân loại gần như hoàn hảo và do đó các biến hiện rất có ý nghĩa .