Tại sao các bảng anova hồi quy giống hệt nhau?


11

Tôi có hai hồi quy cùng Y và ba cấp X. Nhìn chung n = 15, với n = 5 trong mỗi nhóm hoặc cấp X. Hồi quy đầu tiên coi X là phân loại, gán biến chỉ báo cho cấp 2 và 3 với cấp một là tài liệu tham khảo. Các chỉ số / hình nộm giống như vậy: X1 = 1 if level = 2, 0 if other X2 = 1 if level = 3, 0 if other

Kết quả là mô hình được trang bị của tôi trông giống như thế này: y = b0 + b1 (x1) + b2 (x2)

Tôi chạy hồi quy và đầu ra bao gồm bảng Phân tích phương sai:

bàn

Phần còn lại của đầu ra là không liên quan ở đây.

Được rồi vì vậy bây giờ tôi chạy một hồi quy khác nhau trên cùng một dữ liệu. Tôi bỏ phân tích phân loại và coi X là liên tục, nhưng tôi thêm một biến vào phương trình: X ^ 2, bình phương của X. Vì vậy, bây giờ tôi có mô hình sau: y = b0 + b1 (X) + b2 (X) ^ 2

Nếu tôi chạy nó, nó sẽ tạo ra bảng Phân tích phương sai chính xác tương tự mà tôi đã trình bày ở trên. Tại sao hai hồi quy này làm phát sinh cùng một bảng?

[Tín dụng cho câu hỏi hóc búa nhỏ này thuộc về Thomas Belin trong Khoa Thống kê Sinh học tại Đại học California Los Angeles.]


Tôi nghĩ rằng bạn sẽ phải cho chúng tôi xem mã "thực hiện hồi quy" và có thể là bước dữ liệu (trông giống như đầu ra của SAS đối với tôi) mà bạn sử dụng để tạo bảng dữ liệu mà bạn đang vận hành.
Brad S.

1
@Brad Tôi không nghĩ điều đó là cần thiết: tình huống được mô tả rõ ràng và không cần thêm thông tin để giải thích những gì đang diễn ra.
whuber

@whuber Có lẽ. Tôi đoán, nếu bạn nói như vậy nhưng nó cảm thấy như một lỗi lập trình với tôi. Tôi mong chờ câu trả lời của bạn.
Brad S.

1
@Brad Không phải lỗi lập trình: Tôi đã đăng lời giải thích của mình. Đó là một câu hỏi hay, với sự quan tâm thống kê thực sự (và khả năng áp dụng).
whuber

Này Brad, thực ra là từ một vấn đề - tình huống đã xảy ra với tôi giống như cách tôi đưa ra cho các bạn, và câu hỏi được đặt ra theo cùng một cách: "tại sao chúng lại giống nhau?". Đó chỉ là cách tôi đặt nó ra: hai mô hình, cùng một bảng ANOVA, phần còn lại của các kết quả đầu ra thậm chí không được đưa ra (tôi nên làm rõ điều đó thay vì nói "không liên quan").
logjammin

Câu trả lời:


22

Trong thuật ngữ ma trận, các mô hình của bạn ở dạng thông thường . E[Y]=Xβ

Mô hình đầu tiên biểu thị một phần tử của nhóm thứ nhất theo hàng trong , tương ứng với phần chặn, chỉ báo cho loại 2 và chỉ báo cho loại 3. Nó đại diện cho một phần tử của nhóm thứ hai hàng và một yếu tố của nhóm thứ ba bằng .(1,0,0)X(1,1,0)(1,0,1)

Thay vào đó, mô hình thứ hai sử dụng các hàng , và , tương ứng.(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Hãy gọi ma trận mô hình kết quả là và . Chúng chỉ đơn giản là liên quan: các cột của một là kết hợp tuyến tính của các cột khác. Chẳng hạn, hãyX1X2

V=(111013028).

Sau đó kể từ

(100110101)V=(111124139),

nó theo đó

X1V=X2.

Các mô hình do đó có liên quan bởi

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

Nghĩa là, các hệ số cho mô hình thứ hai phải liên quan đến các hệ số của mô hình thứ nhất thông quaβ2

β1=Vβ2.

Do đó, mối quan hệ tương tự giữ cho ước tính bình phương nhỏ nhất của họ. Điều này cho thấy các mô hình có sự phù hợp giống hệt nhau : chúng chỉ đơn thuần thể hiện chúng khác nhau.

Do các cột đầu tiên của hai ma trận mô hình là như nhau, nên bất kỳ bảng ANOVA nào phân tách phương sai giữa cột đầu tiên và các cột còn lại sẽ không thay đổi. Tuy nhiên, một bảng ANOVA phân biệt giữa cột thứ hai và thứ ba, sẽ phụ thuộc vào cách dữ liệu được mã hóa.

Về mặt hình học (và có phần trừu tượng hơn), không gian con ba chiều của được tạo bởi các cột của trùng với không gian con được tạo bởi các cột của . Do đó các mô hình sẽ có phù hợp giống hệt nhau. Sự phù hợp được thể hiện khác nhau chỉ vì các không gian được mô tả với hai cơ sở khác nhau.R15X1X2


Để minh họa, đây là dữ liệu giống như dữ liệu của bạn (nhưng có phản hồi khác nhau) và các phân tích tương ứng như được tạo trong R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Phù hợp với hai mô hình:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Hiển thị bảng ANOVA của họ:

anova(fit.1)
anova(fit.2)

Đầu ra cho mô hình đầu tiên là

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Đối với mô hình thứ hai, nó là

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Bạn có thể thấy rằng các tổng còn lại của hình vuông là như nhau. Bằng cách thêm hai hàng đầu tiên trong mô hình thứ hai, bạn sẽ thu được cùng một DF và tổng bình phương, từ đó có thể tính cùng một bình phương trung bình, giá trị F và giá trị p.

Cuối cùng, hãy so sánh các ước tính hệ số.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Đầu ra là

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Ngay cả các phần chặn cũng hoàn toàn khác nhau. Đó là bởi vì các ước tính của bất kỳ biến nào trong hồi quy bội phụ thuộc vào ước tính của tất cả các biến khác (trừ khi chúng là trực giao lẫn nhau, không phải là trường hợp của cả hai mô hình). Tuy nhiên, hãy xem những gì nhân với hoàn thành:V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Sự phù hợp thực sự là giống như tuyên bố.


6
Thánh hút thuốc, người đàn ông. Tôi chưa bao giờ được xem xét nhiều hơn, câu trả lời thấu đáo từ việc hỏi internet một câu hỏi. Cảm ơn bạn x1000, nghiêm túc.
logjammin

Chào mừng đến với trang web của chúng tôi! Tôi hy vọng bạn tiếp tục sử dụng nó và mong muốn sự đóng góp của bạn.
whuber

1
Tôi đã học được một cái gì đó ngày hôm nay! (nâng cấp)
Brad S.

Câu trả lời tuyệt vời. Tâm thổi!
kedarps

5

Tóm lại, cả hai mô hình đều bão hòa theo nghĩa là chúng cung cấp các dự đoán thực nghiệm duy nhất về đáp ứng ở cả 3 cấp độ X. Có thể rõ ràng đối với mã biến nhân tố trong mô hình 1. Đối với xu hướng bậc hai, thật thú vị khi lưu ý rằng công thức bậc hai có thể nội suy 3 điểm bất kỳ. Mặc dù độ tương phản là khác nhau, trong cả hai mô hình, thử nghiệm toàn cầu đối với vô hiệu của một mô hình chỉ đánh chặn cung cấp suy luận giống hệt nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.