Tôi nghĩ vấn đề này đã được thảo luận trước đây trên trang web này khá kỹ lưỡng, nếu bạn chỉ biết nơi để tìm. Vì vậy, tôi có thể sẽ thêm một nhận xét sau với một số liên kết đến các câu hỏi khác hoặc có thể chỉnh sửa nhận xét này để cung cấp giải thích đầy đủ hơn nếu tôi không thể tìm thấy bất kỳ.
Có hai khả năng cơ bản: Thứ nhất, IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của thử nghiệm thống kê của IV ban đầu. Khả năng thứ hai là bạn có một biến số triệt tiêu. Đây là một chủ đề rất trực quan, nhưng bạn có thể tìm thấy một số thông tin ở đây *, ở đây hoặc chủ đề CV tuyệt vời này .
* Lưu ý rằng bạn cần đọc từ đầu đến cuối để đến phần giải thích các biến số triệt tiêu, bạn có thể bỏ qua trước tới đó, nhưng bạn sẽ được phục vụ tốt nhất bằng cách đọc toàn bộ.
Chỉnh sửa: như đã hứa, tôi đang thêm một lời giải thích đầy đủ hơn về quan điểm của mình về cách IV khác có thể hấp thụ một số biến thiên còn lại và do đó làm tăng sức mạnh của thử nghiệm thống kê của IV ban đầu. @whuber đã thêm một ví dụ ấn tượng, nhưng tôi nghĩ rằng tôi có thể thêm một ví dụ miễn phí giải thích hiện tượng này theo một cách khác, điều này có thể giúp một số người hiểu rõ hơn về hiện tượng này. Ngoài ra, tôi chứng minh rằng IV thứ hai không cần phải liên kết mạnh mẽ hơn (mặc dù, trong thực tế, hầu như luôn luôn xảy ra hiện tượng này).
Các biến số trong mô hình hồi quy có thể được kiểm tra bằng tests bằng cách chia ước lượng tham số cho sai số chuẩn của nó hoặc chúng có thể được kiểm tra với -tests bằng cách phân chia các tổng bình phương. Khi SS loại III được sử dụng, hai phương pháp kiểm tra này sẽ tương đương (để biết thêm về các loại SS và các thử nghiệm liên quan, có thể giúp đọc câu trả lời của tôi ở đây: Cách diễn giải SS loại I ). Đối với những người mới bắt đầu tìm hiểu về các phương pháp hồi quy, các tests thường là trọng tâm vì mọi người có vẻ dễ hiểu hơn. Tuy nhiên, đây là một trường hợp mà tôi nghĩ rằng nhìn vào bảng ANOVA hữu ích hơn. Chúng ta hãy nhớ lại bảng ANOVA cơ bản cho mô hình hồi quy đơn giản: F ttFt
Sourcex1ResidualTotalSS∑(y^i−y¯)2∑(yi−y^i)2∑(yi−y¯)2df1N−(1+1)N−1MSSSx1dfx1SSresdfresFMSx1MSres
Ở đây là giá trị trung bình của , là giá trị quan sát của cho đơn vị (ví dụ: bệnh nhân) , là giá trị dự đoán của mô hình cho đơn vị và là tổng số đơn vị trong nghiên cứu. Nếu bạn có mô hình hồi quy bội với hai hiệp phương trực giao, bảng ANOVA có thể được xây dựng như vậy: y¯yyiyiy^iiN
Sourcex1x2ResidualTotalSS∑(y^x1ix¯2−y¯)2∑(y^x¯1x2i−y¯)2∑(yi−y^i)2∑(yi−y¯)2df11N−(2+1)N−1MSSSx1dfx1SSx2dfx2SSresdfresFMSx1MSresMSx2MSres
Ví dụ, ở đây là giá trị dự đoán cho đơn vị nếu giá trị quan sát của nó đối với là giá trị quan sát thực tế của nó, nhưng giá trị quan sát được của nó đối với là giá trị trung bình của . Tất nhiên, có thể là giá trị quan sát của đối với một số quan sát, trong trường hợp đó không có điều chỉnh nào được thực hiện, nhưng điều này thường không phải là trường hợp. Lưu ý rằng phương pháp này để tạo bảng ANOVA chỉ hợp lệ nếu tất cả các biến là trực giao; đây là một trường hợp đơn giản hóa cao được tạo ra cho mục đích lưu trữ. y^x1ix¯2ix1x2x2x¯2 x2
Nếu chúng ta đang xem xét tình huống sử dụng cùng một dữ liệu để phù hợp với một mô hình cả có và không có , thì các giá trị được quan sát và sẽ giống nhau. Do đó, tổng SS phải giống nhau trong cả hai bảng ANOVA. Ngoài ra, nếu và trực giao với nhau, thì cũng sẽ giống hệt nhau trong cả hai bảng ANOVA. Vậy, làm thế nào mà có thể có các tổng bình phương liên kết với trong bảng? Họ đến từ đâu nếu tổng SS và giống nhau? Câu trả lời là chúng đến từ . Các cũng được lấy từx2yy¯x1x2SSx1x2SSx1SSresdfx2dfres .
Bây giờ -test của là chia cho trong cả hai trường hợp. Vì là như nhau, sự khác biệt về tầm quan trọng của thử nghiệm này đến từ sự thay đổi trong , đã thay đổi theo hai cách: Bắt đầu với ít SS hơn, vì một số được phân bổ thành , nhưng những người được chia cho ít df hơn, vì một số mức độ tự do cũng được phân bổ cho . Sự thay đổi về tầm quan trọng / sức mạnh của -test (và tương đương là -test, trong trường hợp này) là do cách hai thay đổi đó đánh đổi. Nếu nhiều SS được trao choFx1MSx1MSresMSx1MSresx2x2Ftx2, liên quan đến df được trao cho , thì sẽ giảm, làm cho liên kết với tăng lên và trở nên quan trọng hơn. x2MSresFx1p
Hiệu ứng của không phải lớn hơn để điều này xảy ra, nhưng nếu không, thì sự thay đổi trong giá trị sẽ khá nhỏ. Cách duy nhất nó sẽ kết thúc chuyển đổi giữa không quan trọng và quan trọng là nếu giá trị xảy ra chỉ là một chút ở cả hai phía của alpha. Đây là một ví dụ, được mã hóa trong : x2x1ppR
x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2) # [1] 0
set.seed(11628)
y = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1 = lm(y~x1)
model12 = lm(y~x1+x2)
anova(model1)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 5.314 5.3136 3.9568 0.05307 .
# Residuals 43 57.745 1.3429
# ...
anova(model12)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 5.314 5.3136 4.2471 0.04555 *
# x2 1 5.198 5.1979 4.1546 0.04785 *
# Residuals 42 52.547 1.2511
# ...
Trên thực tế, hoàn toàn không có ý nghĩa. Xem xét: x2
set.seed(1201)
y = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 3.631 3.6310 3.8461 0.05636 .
# ...
anova(model12)
# ...
# Df Sum Sq Mean Sq F value Pr(>F)
# x1 1 3.631 3.6310 4.0740 0.04996 *
# x2 1 3.162 3.1620 3.5478 0.06656 .
# ...
Chúng được thừa nhận không có gì giống như ví dụ ấn tượng trong bài đăng của @ whuber, nhưng chúng có thể giúp mọi người hiểu những gì đang diễn ra ở đây.