Làm thế nào để thêm IV thứ 2 làm cho IV thứ nhất có ý nghĩa?


64

Tôi có những gì có lẽ là một câu hỏi đơn giản, nhưng nó đang gây trở ngại cho tôi ngay bây giờ, vì vậy tôi hy vọng bạn có thể giúp tôi.

Tôi có một mô hình hồi quy bình phương tối thiểu, với một biến độc lập và một biến phụ thuộc. Mối quan hệ không đáng kể. Bây giờ tôi thêm một biến độc lập thứ hai. Bây giờ mối quan hệ giữa biến độc lập đầu tiên và biến phụ thuộc trở nên quan trọng.

Cái này hoạt động ra sao? Điều này có thể thể hiện một số vấn đề với sự hiểu biết của tôi, nhưng với tôi, nhưng tôi không thấy việc thêm biến độc lập thứ hai này có thể làm cho ý nghĩa đầu tiên trở nên quan trọng như thế nào.


4
Đây là một chủ đề thảo luận rất rộng rãi trên trang web này. Điều này có lẽ là do sự cộng tác. Thực hiện tìm kiếm "collinearity" và bạn sẽ tìm thấy hàng tá chủ đề có liên quan. Tôi khuyên bạn nên đọc một số câu trả lời cho stats.stackexchange.com/questions/14500/ trên
Macro

3
có thể trùng lặp các yếu tố dự đoán quan trọng trở nên không đáng kể trong hồi quy logistic nhiều . Có rất nhiều chủ đề này thực sự là một bản sao của - đó là chủ đề gần nhất tôi có thể tìm thấy trong vòng hai phút
Macro

3
Đây là loại vấn đề ngược lại của vấn đề trong luồng @macro vừa tìm thấy, nhưng lý do rất giống nhau.
Peter Flom - Tái lập Monica

3
@Macro, tôi nghĩ bạn đúng rằng đây có thể là một bản sao, nhưng tôi nghĩ rằng vấn đề ở đây hơi khác so với 2 câu hỏi trên. OP không đề cập đến tầm quan trọng của toàn bộ mô hình, cũng như các biến trở thành không quan trọng với các IV bổ sung. Tôi nghi ngờ đây không phải là về đa cộng đồng, mà là về sức mạnh hoặc có thể là sự đàn áp.
gung - Phục hồi Monica

3
Ngoài ra, @gung, sự triệt tiêu trong các mô hình tuyến tính chỉ xảy ra khi có cộng tuyến - sự khác biệt là về diễn giải, vì vậy "đây không phải là về đa cộng tuyến mà là về khả năng triệt tiêu" thiết lập một sự phân đôi sai lệch
Macro

Câu trả lời:


78

Mặc dù collinearity (của các biến dự đoán) là một lời giải thích khả thi, tôi muốn đề xuất nó không phải là một lời giải thích rõ ràng bởi vì chúng ta biết rằng collinearity có liên quan đến "thông tin chung" giữa các dự đoán, vì vậy không có gì bí ẩn hoặc phản trực giác về phía bên hiệu quả của việc giới thiệu một yếu tố dự đoán tương quan thứ hai vào mô hình.

Sau đó chúng ta hãy xem xét trường hợp của hai yếu tố dự đoán thực sự trực giao : hoàn toàn không có sự cộng tác giữa chúng. Một sự thay đổi đáng kể về ý nghĩa vẫn có thể xảy ra.

Chỉ định các biến dự đoán và và để đặt tên cho dự đoán. Hồi quy của so với sẽ không có ý nghĩa khi biến thiên của xung quanh giá trị trung bình của nó không giảm đáng kể khi được sử dụng làm biến độc lập. Tuy nhiên, khi biến thể đó được liên kết chặt chẽ với biến thứ hai , tình huống sẽ thay đổi. Hãy nhớ lại rằng nhiều hồi quy của so với và tương đương vớiX 2 Y Y X 1 YX1X2YYX1YX 2 Y X 1 X 2X1X2YX1X2

  1. Hồi quy riêng rẽ và so với .X 1 X 2YX1X2

  2. Hồi quy phần dư so với phần dư .X 1YX1

Phần dư từ bước đầu tiên đã loại bỏ ảnh hưởng của . Khi có tương quan chặt chẽ với , điều này có thể làm lộ ra một lượng biến thể tương đối nhỏ mà trước đây đã bị che giấu. Nếu này biến thể có liên quan đến , chúng tôi có được một kết quả đáng kể.X 2 Y X 1X2X2YX1


Tất cả điều này có lẽ có thể được làm rõ với một ví dụ cụ thể. Để bắt đầu, hãy sử dụng Rđể tạo hai biến độc lập trực giao cùng với một số lỗi ngẫu nhiên độc lập :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

( svdBước đảm bảo hai cột ma trận x(đại diện cho và ) là trực giao, loại trừ tính cộng tuyến như một lời giải thích có thể có về bất kỳ kết quả tiếp theo nào.)X 2X1X2

Tiếp theo, tạo dưới dạng kết hợp tuyến tính của và lỗi. Tôi đã điều chỉnh các hệ số để tạo ra hành vi phản trực giác:XYX

y <-  x %*% c(0.05, 1) + eps * 0.01

Đây là sự hiện thực hóa của mô hình với trường hợp.n = 32YiidN(0.05X1+1.00X2,0.012)n=32

Nhìn vào hai hồi quy trong câu hỏi. Đầu tiên , hồi quy với :X 1YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

Giá trị p cao của 0,710 cho thấy hoàn toàn không có ý nghĩa.X1

Tiếp theo , hồi quy so với và :X 1 X 2YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Đột nhiên, trong sự hiện diện của , là mạnh đáng kể, như được chỉ ra bởi sự gần như zero p-giá trị cho cả hai biến.X 1X2X1

Chúng ta có thể hình dung hành vi này bằng ma trận phân tán của các biến , và cùng với các phần dư được sử dụng trong đặc tính hai bước của hồi quy bội ở trên. Vì và là trực giao, phần dư sẽ giống với và do đó không cần phải vẽ lại. Chúng tôi sẽ bao gồm phần dư của so với trong ma trận phân tán, đưa ra con số này:X 2 Y X 1 X 2 X 1 X 1 Y X 2X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Đây là một kết xuất của nó (với một chút chỉnh sửa):

SPM

Ma trận đồ họa này có bốn hàng và bốn cột, tôi sẽ đếm ngược từ trên xuống và từ trái sang phải.

Để ý:

  • Phân tán ở hàng thứ hai và cột thứ nhất xác nhận tính trực giao của các yếu tố dự đoán này: đường bình phương nhỏ nhất nằm ngang và tương quan bằng không.(X1,X2)

  • Phân tán ở hàng thứ ba và cột đầu tiên thể hiện mối quan hệ nhẹ nhưng hoàn toàn không đáng kể được báo cáo bởi hồi quy đầu tiên của so với . (Hệ số tương quan, , chỉ ).Y X 1 ρ 0,07(X1,Y)YX1ρ0.07

  • Phân tán ở hàng thứ ba và cột thứ hai cho thấy mối quan hệ mạnh mẽ giữa và biến độc lập thứ hai. (Hệ số tương quan là ).Y 0,996(X2,Y)Y0.996

  • Hàng thứ tư kiểm tra các mối quan hệ giữa phần của (hồi quy so với ) và các biến khác:X 2YX2

    • Tỷ lệ dọc cho thấy phần dư (tương đối) khá nhỏ: chúng ta không thể dễ dàng nhìn thấy chúng trong biểu đồ phân tán của so với .X 2YX2

    • Phần dư tương quan mạnh với ( ). Hồi quy chống lại đã vạch mặt hành vi ẩn trước đó. ρ = 0,80 X 2X1ρ=0.80X2

    • Bằng cách xây dựng, không có mối tương quan còn lại giữa phần dư và .X2

    • Có rất ít mối tương quan giữa và các phần dư này ( ). Điều này cho thấy phần dư có thể hành xử hoàn toàn khác với chính Đó là cách đột nhiên có thể được tiết lộ như là một đóng góp đáng kể cho hồi quy.ρ = 0,09 Y X 1Yρ=0.09YX1

Cuối cùng, điều đáng lưu ý là hai ước tính của hệ số (cả hai đều bằng , không xa giá trị dự định ) chỉ đồng ý vì và là trực giao. Ngoại trừ trong các thí nghiệm được thiết kế, rất hiếm khi tính trực giao giữ chính xác. Một sự rời khỏi tính trực giao thường làm cho các ước tính hệ số thay đổi. 0,06895 0,05 X 1 X 2X10.068950.05X1X2


Vì vậy, tôi hiểu rằng giải thích sự biến đổi mà không có. Điều này có yêu cầu phải (nhiều hơn) đáng kể so với không? Hoặc có thể trở nên quan trọng mà không có ý nghĩa của ? X 2 X 2 X 1 X 1 X 2X1X2X2X1X1X2
Ronald

@Ronald, tôi tin rằng câu trả lời cho câu hỏi của bạn lần lượt là không và có. Bạn có thể tìm ra bằng cách sửa đổi ví dụ trong câu trả lời này: thay đổi hệ số (0,05 và 0,01) trong mô hình và số trường hợp ( ) để xem điều gì xảy ra. n=32
whuber

23

Tôi nghĩ vấn đề này đã được thảo luận trước đây trên trang web này khá kỹ lưỡng, nếu bạn chỉ biết nơi để tìm. Vì vậy, tôi có thể sẽ thêm một nhận xét sau với một số liên kết đến các câu hỏi khác hoặc có thể chỉnh sửa nhận xét này để cung cấp giải thích đầy đủ hơn nếu tôi không thể tìm thấy bất kỳ.

Có hai khả năng cơ bản: Thứ nhất, IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của thử nghiệm thống kê của IV ban đầu. Khả năng thứ hai là bạn có một biến số triệt tiêu. Đây là một chủ đề rất trực quan, nhưng bạn có thể tìm thấy một số thông tin ở đây *, ở đây hoặc chủ đề CV tuyệt vời này .

* Lưu ý rằng bạn cần đọc từ đầu đến cuối để đến phần giải thích các biến số triệt tiêu, bạn có thể bỏ qua trước tới đó, nhưng bạn sẽ được phục vụ tốt nhất bằng cách đọc toàn bộ.


Chỉnh sửa: như đã hứa, tôi đang thêm một lời giải thích đầy đủ hơn về quan điểm của mình về cách IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của thử nghiệm thống kê của IV ban đầu. @whuber đã thêm một ví dụ ấn tượng, nhưng tôi nghĩ rằng tôi có thể thêm một ví dụ miễn phí giải thích hiện tượng này theo một cách khác, điều này có thể giúp một số người hiểu rõ hơn về hiện tượng này. Ngoài ra, tôi chứng minh rằng IV thứ hai không cần phải liên kết mạnh mẽ hơn (mặc dù, trong thực tế, hầu như luôn luôn xảy ra hiện tượng này).

Các biến số trong mô hình hồi quy có thể được kiểm tra bằng tests bằng cách chia ước lượng tham số cho sai số chuẩn của nó hoặc chúng có thể được kiểm tra với -tests bằng cách phân chia các tổng bình phương. Khi SS loại III được sử dụng, hai phương pháp kiểm tra này sẽ tương đương (để biết thêm về các loại SS và các thử nghiệm liên quan, có thể giúp đọc câu trả lời của tôi ở đây: Cách diễn giải SS loại I ). Đối với những người mới bắt đầu tìm hiểu về các phương pháp hồi quy, các tests thường là trọng tâm vì mọi người có vẻ dễ hiểu hơn. Tuy nhiên, đây là một trường hợp mà tôi nghĩ rằng nhìn vào bảng ANOVA hữu ích hơn. Chúng ta hãy nhớ lại bảng ANOVA cơ bản cho mô hình hồi quy đơn giản: F ttFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

Ở đây là giá trị trung bình của , là giá trị quan sát của cho đơn vị (ví dụ: bệnh nhân) , là giá trị dự đoán của mô hình cho đơn vị và là tổng số đơn vị trong nghiên cứu. Nếu bạn có mô hình hồi quy bội với hai hiệp phương trực giao, bảng ANOVA có thể được xây dựng như vậy: y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

Ví dụ, ở đây là giá trị dự đoán cho đơn vị nếu giá trị quan sát của nó đối với là giá trị quan sát thực tế của nó, nhưng giá trị quan sát được của nó đối với là giá trị trung bình của . Tất nhiên, có thể giá trị quan sát của đối với một số quan sát, trong trường hợp đó không có điều chỉnh nào được thực hiện, nhưng điều này thường không phải là trường hợp. Lưu ý rằng phương pháp này để tạo bảng ANOVA chỉ hợp lệ nếu tất cả các biến là trực giao; đây là một trường hợp đơn giản hóa cao được tạo ra cho mục đích lưu trữ. y^x1ix¯2ix1x2x2x¯2 x2

Nếu chúng ta đang xem xét tình huống sử dụng cùng một dữ liệu để phù hợp với một mô hình cả có và không có , thì các giá trị được quan sát và sẽ giống nhau. Do đó, tổng SS phải giống nhau trong cả hai bảng ANOVA. Ngoài ra, nếu và trực giao với nhau, thì cũng sẽ giống hệt nhau trong cả hai bảng ANOVA. Vậy, làm thế nào mà có thể có các tổng bình phương liên kết với trong bảng? Họ đến từ đâu nếu tổng SS và giống nhau? Câu trả lời là chúng đến từ . Các cũng được lấy từx2yy¯x1x2SSx1x2SSx1SSresdfx2dfres .

Bây giờ -test của là chia cho trong cả hai trường hợp. Vì là như nhau, sự khác biệt về tầm quan trọng của thử nghiệm này đến từ sự thay đổi trong , đã thay đổi theo hai cách: Bắt đầu với ít SS hơn, vì một số được phân bổ thành , nhưng những người được chia cho ít df hơn, vì một số mức độ tự do cũng được phân bổ cho . Sự thay đổi về tầm quan trọng / sức mạnh của -test (và tương đương là -test, trong trường hợp này) là do cách hai thay đổi đó đánh đổi. Nếu nhiều SS được trao choFx1MSx1MSresMSx1MSresx2x2Ftx2, liên quan đến df được trao cho , thì sẽ giảm, làm cho liên kết với tăng lên và trở nên quan trọng hơn. x2MSresFx1p

Hiệu ứng của không phải lớn hơn để điều này xảy ra, nhưng nếu không, thì sự thay đổi trong giá trị sẽ khá nhỏ. Cách duy nhất nó sẽ kết thúc chuyển đổi giữa không quan trọng và quan trọng là nếu giá trị xảy ra chỉ là một chút ở cả hai phía của alpha. Đây là một ví dụ, được mã hóa trong : x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

Trên thực tế, hoàn toàn không có ý nghĩa. Xem xét: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Chúng được thừa nhận không có gì giống như ví dụ ấn tượng trong bài đăng của @ whuber, nhưng chúng có thể giúp mọi người hiểu những gì đang diễn ra ở đây.


1
(+1) cho "Đầu tiên, IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của kiểm tra thống kê của IV ban đầu", mà @whuber đã đưa ra một ví dụ hay về
Macro

(+1) Ban đầu, bạn đưa ra ba liên kết. Cái đầu tiên (cái bên ngoài) không may bị hỏng (lỗi 404). Ngoài ra: bạn nói rằng có "hai khả năng cơ bản": IV thứ hai được thêm vào sẽ tăng sức mạnh để kiểm tra IV đầu tiên (và đây chính xác là tình huống được mô tả bởi Whuber và Wayne trong câu trả lời của họ) hoặc có một biến áp suất (cái nào, btw? cái thứ nhất hay cái thứ hai?). Câu hỏi của tôi: đây thực sự là hai tình huống khác biệt? Hoặc về cơ bản là cùng một thứ, có thể được xem một chút khác nhau? Sẽ thật tuyệt nếu bạn có thể mở rộng về điều đó.
amip nói rằng Phục hồi lại


@gung, cảm ơn đã trả lời. Ttnphns bắt đầu bằng việc đưa ra một liên kết đến một bài báo thảo luận về sự đàn áp và một số hiệu ứng liên quan khác, và bài báo này tuyên bố rằng "định nghĩa được chấp nhận rộng rãi nhất về một biến số triệt tiêu (Tzelgov & Henik, 1991) [là] một biến làm tăng tính hợp lệ dự đoán của một biến khác (hoặc tập hợp các biến) bằng cách đưa nó vào phương trình hồi quy ". Điều này nghe có vẻ giống như những gì OP ở đây đã hỏi, đó là lý do tại sao tôi bối rối khi bạn nói rằng có thể có hai lý do khác nhau .
amip nói rằng Phục hồi Monica

1
@amoeba, vấn đề là bạn có 2 cơ chế khác nhau. Đó là, bạn có 2 DAG cơ bản khác nhau. Biểu hiện bên ngoài có thể tương tự nhau, và sức mạnh bổ sung có thể nhiều hơn hoặc ít hơn, nhưng lý do tại sao biến thứ 2 giúp khác biệt b / c mối quan hệ của biến thứ 2 với x1 & y khác nhau. Nếu nó không rõ ràng, bạn có thể cần phải hỏi một câu hỏi mới; thật khó để làm quá nhiều ý kiến.
gung - Tái lập Monica

17

Cảm giác như câu hỏi của OP có thể được diễn giải theo hai cách khác nhau:

  1. Về mặt toán học, làm thế nào để OLS hoạt động, như vậy việc thêm một biến độc lập có thể thay đổi kết quả theo cách không mong muốn?

  2. Làm cách nào để sửa đổi mô hình của tôi bằng cách thêm một biến thay đổi hiệu ứng của biến khác, biến độc lập trong mô hình?

Có một số câu trả lời tốt cho câu hỏi số 1. Và câu hỏi số 2 có thể quá rõ ràng đối với các chuyên gia đến nỗi họ cho rằng OP phải đặt câu hỏi số 1 thay thế. Nhưng tôi nghĩ câu hỏi số 2 xứng đáng có câu trả lời, đó sẽ là một câu như:

Hãy bắt đầu với một ví dụ. Giả sử bạn có chiều cao, tuổi, giới tính, v.v., của một số trẻ em và bạn muốn thực hiện hồi quy để dự đoán chiều cao của chúng.

Bạn bắt đầu với một mô hình ngây thơ sử dụng giới tính làm biến độc lập. Và nó không có ý nghĩa thống kê. (Làm sao có thể như vậy, bạn đang trộn lẫn trẻ 3 tuổi và thiếu niên.)

Sau đó, bạn thêm tuổi và đột nhiên không chỉ là tuổi đáng kể, mà giới tính cũng vậy. Làm thế nào mà có thể được?

Tất nhiên, trong ví dụ của tôi, bạn có thể thấy rõ rằng tuổi tác là một yếu tố quan trọng trong chiều cao của trẻ em / thiếu niên. Có lẽ là yếu tố quan trọng nhất mà bạn có dữ liệu. Giới cũng có thể quan trọng, đặc biệt là đối với trẻ lớn và người lớn, nhưng riêng giới là một mô hình kém về việc trẻ cao bao nhiêu.

Tuổi tác cộng với giới tính là một mô hình hợp lý (mặc dù, tất nhiên được đơn giản hóa) phù hợp với nhiệm vụ. Nếu bạn thêm dữ liệu khác - tương tác về tuổi và giới tính, chế độ ăn uống, chiều cao của cha mẹ, v.v. - bạn có thể tạo ra một mô hình thậm chí tốt hơn, tất nhiên vẫn sẽ được đơn giản hóa so với các yếu tố thực sự quyết định chiều cao của trẻ, nhưng sau đó một lần nữa tất cả các mô hình là phiên bản đơn giản hóa của thực tế. (Bản đồ thế giới tỷ lệ 1: 1 không quá hữu ích cho khách du lịch.)

Mô hình ban đầu của bạn (chỉ giới tính) quá đơn giản - đơn giản đến mức về cơ bản nó bị hỏng. Nhưng điều đó không có nghĩa là giới tính không hữu ích trong một mô hình tốt hơn.

EDIT: đã thêm gợi ý của gung re: thuật ngữ tương tác giữa tuổi và giới.


1
+1, nb, tuổi & giới tính có lẽ cũng cần một thuật ngữ tương tác.
gung - Tái lập Monica

1
+1 Đó là một ví dụ tuyệt vời vì nó rất đơn giản và rõ ràng bằng trực giác, đồng thời cũng phù hợp chính xác với tình huống được mô tả chi tiết hơn nhiều nhưng chỉ trừu tượng bởi @whuber trong câu trả lời được chấp nhận của anh ấy ở đây.
amip nói rằng Phục hồi lại

10

Chủ đề này đã có ba câu trả lời xuất sắc (+1 cho mỗi). Câu trả lời của tôi là một nhận xét và minh họa mở rộng đến điểm được tạo bởi @gung (điều này khiến tôi mất một thời gian để hiểu):

Có hai khả năng cơ bản: Thứ nhất, IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của thử nghiệm thống kê của IV ban đầu. Khả năng thứ hai là bạn có một biến số triệt tiêu.

Đối với tôi, cách khái niệm rõ ràng nhất để suy nghĩ về hồi quy bội là hình học. Hãy xem xét hai IV và và DV . Hãy để chúng là trung tâm, để chúng ta không cần quan tâm đến việc đánh chặn. Sau đó, nếu chúng ta có điểm dữ liệu trong tập dữ liệu, cả ba biến có thể được tưởng tượng là các vectơ trong ; độ dài của mỗi vectơ tương ứng với phương sai và góc giữa bất kỳ hai trong số chúng tương ứng với tương quan. Điều quan trọng, thực hiện nhiều hồi quy OLS không gì khác hơn là chiếu biến phụ thuộc lên mặt phẳng được kéo dài bởi vàx1x2ynRnyx1x2(với "ma trận mũ" chỉ đơn giản là một máy chiếu). Người đọc không quen thuộc với phương pháp này có thể xem ví dụ như trong Các yếu tố của học thống kê , Phần 3.2 hoặc trong nhiều cuốn sách khác.

"Tăng cường"

Hình dưới đây cho thấy cả hai khả năng được liệt kê bởi @gung. Chỉ xem xét phần màu xanh lúc đầu (nghĩa là bỏ qua tất cả các dòng màu đỏ):

Tăng cường và đàn áp

Ở đây và là các dự đoán trực giao bao trùm một mặt phẳng (gọi là "mặt phẳng "). Biến phụ thuộc được chiếu lên mặt phẳng này và phép chiếu OD của nó là cái thường được gọi là . Sau đó OD được phân tách thành OF (đóng góp của IV1) và OE (đóng góp của IV2). Lưu ý rằng OE dài hơn OF.x1x2Xyy^

Bây giờ hãy tưởng tượng rằng không có dự đoán thứ hai . Việc áp dụng lên cũng sẽ dẫn đến việc chiếu nó lên OF. Nhưng góc AOC ( ) gần ; một thử nghiệm thống kê thích hợp sẽ kết luận rằng hầu như không có mối liên hệ nào giữa và và do đó là không đáng kể.x2yx1α90yx1x1

Khi được thêm vào, phép chiếu OF không thay đổi (vì và là trực giao). Tuy nhiên, để kiểm tra xem có đáng kể hay không, bây giờ chúng ta cần xem xét những gì còn lại không giải thích được sau . Công cụ dự đoán thứ hai giải thích một phần lớn , OE, chỉ còn lại một phần nhỏ EC không giải thích được. Để rõ ràng, tôi đã sao chép vectơ này vào gốc và gọi nó là OG: lưu ý rằng góc GOF ( ) nhỏ hơn nhiều so với . Nó có thể dễ dàng đủ nhỏ để thử nghiệm kết luận rằng nó "nhỏ hơn đáng kể so với ", tức làx2x1x2x1x2x2yβα90x1 bây giờ là một dự báo quan trọng.

Một cách khác để nói là thử nghiệm hiện đang so sánh độ dài của OF với OG, và không phải với OC như trước đây; OF nhỏ bé và "không đáng kể" so với OC, nhưng đủ lớn để "đáng kể" so với OG.

Đây chính xác là tình huống được trình bày bởi @whuber, @gung và @Wayne trong câu trả lời của họ. Tôi không biết hiệu ứng này có tên tiêu chuẩn trong tài liệu hồi quy hay không, vì vậy tôi sẽ gọi nó là "tăng cường".

Ức chế

Lưu ý rằng ở trên, nếu thì cũng vậy; nói cách khác, "tăng cường" chỉ có thể tăng cường sức mạnh để phát hiện yếu tố dự đoán quan trọng, nhưng nếu chỉ riêng hiệu ứng của là chính xác thì nó sẽ giữ chính xác bằng không.α=90β=90x1

Không phải như vậy trong sự đàn áp.

Hãy tưởng tượng rằng chúng ta thêm vào (thay vì ) - vui lòng xem xét phần màu đỏ của bản vẽ. Vectơ nằm trong cùng mặt phẳng , nhưng không trực giao với (có nghĩa là có tương quan với ). Vì mặt phẳng giống như trước, nên phép chiếu OD của cũng giữ nguyên. Tuy nhiên, sự phân rã OD thành đóng góp của cả hai yếu tố dự đoán thay đổi mạnh mẽ: bây giờ OD bị phân hủy thành OF 'và OE'.x3x1x2x3Xx1x3x1Xy

Lưu ý cách OF 'dài hơn nhiều so với OF trước đây. Một thử nghiệm thống kê sẽ so sánh độ dài của OF 'với E'C và kết luận rằng sự đóng góp của là rất đáng kể. Điều này có nghĩa là một yếu tố dự đoán có tương quan chính xác bằng 0 với hóa ra lại là một yếu tố dự báo quan trọng. Tình huống này là (rất khó hiểu, theo ý kiến ​​của tôi!) Được gọi là "đàn áp"; xem ở đây như lý do tại sao: Hiệu ứng ức chế trong hồi quy: định nghĩa và giải thích / mô tả trực quan - @ttnphns minh họa câu trả lời tuyệt vời của ông với rất nhiều số liệu tương tự như tôi ở đây (chỉ được thực hiện tốt hơn).x1x1y


1
Tôi thấy câu trả lời của bạn là dễ hiểu nhất với sự trợ giúp của việc giải thích hình học. Tuyệt vời!
zsljulius

1
+1 để minh họa hữu ích. Tôi làm theo phần 'tăng cường' của bạn, nhưng không phải là phần 'đàn áp'. Q1, nếu , điều đó có nghĩa là nằm trên trục , tức là là bội số của và vì vậy ? Câu hỏi 2, làm thế nào phần này là một minh họa của 'một người dự đoán có tương quan chính xác với '? vẫn tương quan với trong phần này. Có phải tôi đã hiểu lầm? y x 1 y x 1 c o r ( x 1 , y ) = 1 x 1 y y x 1α=0yx1yx1cor(x1,y)=1x1yyx1
qoheleth

@qoheleth Cảm ơn bạn đã chú ý. Nó phải là trong đoạn này. Tôi sẽ chỉnh sửa để sửa chữa. α=90
amip nói rằng Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.