Sự khác biệt giữa hồi quy và ANOVA (aov so với lm trong R)


21

Tôi luôn có ấn tượng rằng hồi quy chỉ là một dạng ANOVA tổng quát hơn và kết quả sẽ giống hệt nhau. Tuy nhiên, gần đây, tôi đã chạy cả hồi quy và ANOVA trên cùng một dữ liệu và kết quả khác nhau đáng kể. Đó là, trong mô hình hồi quy cả hiệu ứng chính và tương tác đều có ý nghĩa, trong khi trong ANOVA, một hiệu ứng chính không đáng kể. Tôi hy vọng điều này có liên quan đến sự tương tác, nhưng đối với tôi không rõ điều gì khác biệt về hai cách mô hình hóa cùng một câu hỏi này. Nếu nó quan trọng, một yếu tố dự đoán là phân loại và cái còn lại là liên tục, như được chỉ ra trong mô phỏng dưới đây.

Dưới đây là một ví dụ về dữ liệu của tôi trông như thế nào và phân tích tôi đang chạy, nhưng không có cùng giá trị p hoặc hiệu ứng có ý nghĩa trong kết quả (kết quả thực tế của tôi được nêu ở trên):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

tóm tắt (lm ()) sẽ cung cấp cho bạn các hệ số cho các tương phản bạn đã chỉ định, đó là các tương phản điều trị trong trường hợp không có đặc điểm kỹ thuật ở đây. Trong khi tóm tắt (aov ()) đang cung cấp cho bạn bảng anova. Nếu bạn muốn anova cho mô hình lm, bạn cần anova (lm ())
Matt Albrecht

grouplà một vector số, đây là mục đích? Thông thường, các yếu tố nhóm nên có lớp factor, sao cho việc chuyển đổi thành tương phản có thể được xử lý tự động bởi các hàm như lm(). Điều này sẽ trở nên rõ ràng khi bạn có nhiều hơn hai nhóm hoặc sử dụng mã hóa khác 0/1 cho groupbiến của mình .
caracal

Câu trả lời:


17

Các summarychức năng gọi các phương thức khác nhau tùy thuộc vào các lớp của đối tượng. Sự khác biệt không nằm ở aovvs lm, nhưng trong thông tin được trình bày về các mô hình. Ví dụ, nếu bạn đã sử dụng anova(mod1)anova(mod2)thay vào đó, bạn sẽ nhận được kết quả tương tự.

Như @Glen nói, điều quan trọng là liệu các bài kiểm tra được báo cáo dựa trên tổng bình phương Loại 1 hay Loại 3. Chúng sẽ khác nhau khi tương quan giữa các biến giải thích của bạn không chính xác bằng 0. Khi chúng tương quan với nhau, một số SS là duy nhất cho một yếu tố dự đoán và một số khác, nhưng một số SS có thể được quy cho một hoặc cả hai. ( Bạn có thể hình dung điều này bằng cách tưởng tượng biểu tượng MasterCard- khác là một vùng nhỏ chồng chéo ở trung tâm.) Không có câu trả lời duy nhất trong tình huống này, và thật không may, đây là tiêu chuẩn cho dữ liệu phi thực nghiệm. Một cách tiếp cận là để nhà phân tích sử dụng phán đoán của họ và gán SS chồng chéo cho một trong các biến. Biến đó đi vào mô hình đầu tiên. Biến còn lại đi vào mô hình thứ hai và lấy SS trông giống như một cái bánh quy với vết cắn được lấy ra từ nó. Hiệu ứng của nó có thể được kiểm tra bằng cái mà đôi khi được gọi là R2thay đổi hoặc F thay đổi. Cách tiếp cận này sử dụng SS loại 1. Ngoài ra, bạn có thể thực hiện việc này hai lần với mỗi lần vào trước và báo cáo thử nghiệm thay đổi F cho cả hai yếu tố dự đoán. Theo cách này, không biến nào có được SS do sự chồng chéo. Cách tiếp cận này sử dụng SS loại 3. (Tôi cũng nên nói với bạn rằng cách tiếp cận thứ hai được tổ chức ở mức độ thấp.)

Theo gợi ý của @BrettMagill trong bình luận bên dưới, tôi có thể cố gắng làm cho điều này rõ ràng hơn một chút. (Lưu ý rằng, trong ví dụ của tôi, tôi chỉ sử dụng 2 dự đoán và không có tương tác, nhưng ý tưởng này có thể được thu nhỏ để bao gồm bất cứ điều gì bạn thích.)

Loại 1: SS (A) và SS (B | A)

Loại 3: SS (A | B) và SS (B | A)


1
Đây là một mô tả tốt đẹp của vấn đề. Bạn có thể làm rõ văn bản một chút với điều này: Loại I: SS_A = SS (A) SS_B = SS (B | A) và SS_AB = SS (AB | B, A) Loại III: SS_A = SS (A | B, AB ) và SS_B = SS (B | A, AB) và SS_AB = SS (AB | A, B)
Brett

1
Cảm ơn rất nhiều vì sự giúp đỡ của bạn. Bây giờ tôi đã hiểu những gì đang diễn ra về cách các mô hình này khác nhau, nhưng tôi vẫn chưa rõ khi nào nên sử dụng mô hình hồi quy hoặc hồi quy. Cố vấn của tôi đang tư vấn cho anova, nhưng tôi luôn được dạy sử dụng hồi quy và tôi không chắc nên sử dụng phương pháp nào phù hợp hơn khi kết quả khác nhau. Bạn có bất kỳ ví dụ hoặc tài nguyên để tư vấn khi nào sẽ là phù hợp? Cảm ơn một lần nữa vì sự giúp đỡ của bạn.
Rebecca

1
Tôi xin lỗi, tôi không làm theo. Quan điểm của tôi là các mô hình không thực sự khác biệt. Một ANOVA là một hồi quy với tất cả các yếu tố dự đoán định tính. Nếu bạn có mô hình hồi quy với các yếu tố dự báo liên tục và định tính, và bạn nhập dự đoán liên tục trước, thì các yếu tố dự đoán định tính (nhưng không có thuật ngữ tương tác) đó là ANCOVA. Cả hai cách tiếp cận đều tốt, vì "đằng sau hậu trường" chúng giống hệt nhau. Tôi thường mã hóa điều này như một hồi quy, nhưng đó là vấn đề về phong cách. OTOH, nếu cố vấn của bạn muốn nó chạy kiểu ANOVA, thì hãy đi theo con đường đó, vì không có sự khác biệt.
gung - Tái lập Monica

2
Một vài điều: (3 trở lên) một tương tác không có nghĩa là các biến độc lập của bạn có tương quan với nhau, đây chỉ là những điều khác nhau; (2 trở lên) nếu mô hình 3 tốt hơn đáng kể so với mô hình 2, thì có, điều này cho thấy sự tương tác là đáng kể (vì tương tác là điều duy nhất khác biệt giữa chúng); (1 trở lên) bạn muốn tránh chỉ câu cá cho các hiệu ứng đáng kể trừ khi bạn nghĩ về nghiên cứu của mình với tư cách là một phi công mà bạn sẽ sử dụng để lên kế hoạch cho một nghiên cứu xác nhận tiếp theo (trong trường hợp này tôi nghĩ bạn vẫn ổn); Tôi tập hợp bạn thực hiện nghiên cứu này để xem xét cả ba, do đó đi với mô hình 3.
gung - Tái lập Monica

2
Ngoài ra, một tương tác ngụ ý rằng bạn không nên diễn giải các tác động chính, do đó chỉ đưa ra mô hình 1 có thể gây hiểu lầm nguy hiểm. Nếu bạn muốn biết thêm thông tin về các loại SS, tôi đã viết một câu trả lời khá toàn diện ở đây: stats.stackexchange.com/questions/20452/. Ngoài ra, bạn nên chấp nhận một trong những câu trả lời, tại một số điểm, bằng cách nhấp vào dấu kiểm bên cạnh một trong số chúng.
gung - Phục hồi Monica

10

Các kết quả từ đầu ra aov đang cung cấp cho bạn xác suất dựa trên tổng bình phương Loại 1. Đây là lý do tại sao kết quả tương tác là như nhau và các hiệu ứng chính khác nhau.

Nếu bạn sử dụng xác suất dựa trên tổng bình phương Loại 3 thì chúng sẽ khớp với kết quả hồi quy tuyến tính.

library(car)
Anova(aov(score~group*moderator),type=3)

5
Các mô hình tuyến tính và ANOVA sẽ tương đương khi các mô hình đang kiểm tra các giả thuyết tương tự và khi tham số hóa các yếu tố là tương đương. Vì vậy, các khoản tiền được gọi là "Loại I" và "Loại III" là các hình vuông đơn giản là các thử nghiệm của các giả thuyết cơ bản khác nhau (tác động của các tổng bình phương liên tiếp so với tổng bình phương biên). ANOVA có xu hướng che giấu một số quyết định này khi được thực hiện trong nhiều gói - một thực tế khiến tôi tin rằng thực sự thiết lập và kiểm tra các giả thuyết quan tâm thông qua tham số hóa yếu tố và so sánh mô hình trong GLM là một cách tiếp cận ưu việt.
Brett

+1, tôi nghĩ rằng bạn có một lỗi đánh máy, mặc dù. lm đang sử dụng SS loại 1 và aov đang sử dụng SS loại 3.
gung - Phục hồi Monica

2
Loại III (Marginal) Sums of Squares được sử dụng theo mặc định trong lm. AOV sẽ sử dụng Loại I (Tuần tự) theo mặc định. Kết quả LM là bất biến để đặt hàng trong khi kết quả aov phụ thuộc vào thứ tự của các yếu tố.
Brett

Tôi nghĩ cả lm và aov đều sử dụng loại I theo mặc định, do đó việc sử dụng vốn A Anova () cho loại II và III.
Matt Albrecht

6
Nói chung, Anova(..., type=3)sẽ không cung cấp cho bạn SS loại III chính xác, trừ khi bạn cũng chuyển từ tương phản điều trị (mặc định trong R) sang mã hóa cho các yếu tố không được sắp xếp (options(contrasts=c("contr.sum", "contr.poly")) ) hoặc một số mã tương phản tổng bằng không khác (ví dụ: Helmert). Điều này sẽ trở nên rõ ràng khi bạn có kích thước ô không cân bằng và nhiều hơn hai nhóm và cũng được đề cập trong trang trợ giúp Anova().
caracal

-2

Sự khác biệt chính giữa hồi quy tuyến tính và ANOVA là, trong ANOVA, các biến dự đoán là rời rạc (nghĩa là chúng có các mức khác nhau). Trong khi đó trong hồi quy tuyến tính, các biến dự đoán là liên tục.


3
Điều này thường không đúng.
Michael R. Chernick

Tôi đọc nó ở đâu đó trên internet. Bạn có thể vui lòng giải thích sự khác biệt chính. Tôi là người mới
vivek
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.