ANOVA vs nhiều hồi quy tuyến tính? Tại sao ANOVA thường được sử dụng trong các nghiên cứu thực nghiệm?


24

ANOVA vs nhiều hồi quy tuyến tính?

Tôi hiểu rằng cả hai phương pháp này dường như sử dụng cùng một mô hình thống kê. Tuy nhiên trong hoàn cảnh nào tôi nên sử dụng phương pháp nào?

Những lợi thế và bất lợi của các phương pháp này khi so sánh là gì?

Tại sao ANOVA thường được sử dụng trong các nghiên cứu thực nghiệm và tôi hầu như không tìm thấy nghiên cứu hồi quy?


5
Vì cả hai đều sử dụng cùng một mô hình, nên bạn không sử dụng loại nào.
Peter Flom - Tái lập Monica

3
Tôi gọi nó là hồi quy khi tôi so sánh các độ dốc, tức là các biến dự báo liên tục và ANOVA khi tôi so sánh các phương tiện, tức là các biến dự báo phân loại. Lý do bạn tìm thấy ANOVA nhiều hơn trong các nghiên cứu thực nghiệm là vì chúng chủ yếu so sánh các phương tiện, hoặc mức độ điều trị, ví dụ như so sánh các loại phân bón khác nhau về sự tăng trưởng của thực vật. Nhưng như @PeterFlom đã nói cả hai đều sử dụng cùng một mô hình và không quan trọng bạn sử dụng mô hình nào - điều duy nhất trông khác nhau là đầu ra họ cung cấp cho bạn - và tùy thuộc vào câu hỏi của bạn, bạn muốn đầu ra "hồi quy" hay Đầu ra "ANOVA".
Stefan

2
Hmm nhưng bạn cũng có thể bao gồm các dự đoán phân loại trong hồi quy thông qua mã hóa giả?
florian

Phải, tất nhiên!
Stefan

4
Câu hỏi của bạn rất hợp lệ, và đã được giải quyết một số lần từ các quan điểm khác nhau trên CV. Bản chất của các bài kiểm tra này là khó hiểu. Thật dễ dàng để nói ANOVA = hồi quy tuyến tính, và tôi nghĩ rằng tất cả các ý kiến ​​được đưa ra cho đến nay đều hữu ích và đúng đắn, nhưng thực tế lại có một chút sắc thái và khó hiểu, đặc biệt là nếu bạn đưa ANCOVA vào dưới sự phân tích của phương sai. Kiểm tra các mục khác, chẳng hạn như mục này . Tôi +1 câu hỏi của bạn, mặc dù, nói đúng ra là trùng lặp. Bạn có thể cho một người cũ không?
Antoni Parellada

Câu trả lời:


22

Sẽ rất thú vị khi đánh giá cao sự khác biệt nằm ở loại biến và đáng chú ý hơn là các loại biến giải thích . Trong ANOVA điển hình, chúng tôi có một biến phân loại với các nhóm khác nhau và chúng tôi cố gắng xác định xem phép đo của một biến liên tục có khác nhau giữa các nhóm hay không. Mặt khác, OLS có xu hướng được coi là chủ yếu là một nỗ lực đánh giá mối quan hệ giữa biến hồi quy hoặc biến trả lời liên tục và một hoặc nhiều biến hồi quy hoặc biến giải thích . Theo nghĩa này, hồi quy có thể được xem như là một kỹ thuật khác, cho vay để dự đoán các giá trị dựa trên đường hồi quy.

Tuy nhiên , sự khác biệt này không thể hiện sự mở rộng của ANOVA với phần còn lại của phân tích súp bảng chữ cái phương sai (ANCOVA, MANOVA, MANCOVA); hoặc bao gồm các biến được mã hóa giả trong hồi quy OLS. Tôi không rõ về các mốc lịch sử cụ thể, nhưng dường như cả hai kỹ thuật đã phát triển các điều chỉnh song song để giải quyết các mô hình ngày càng phức tạp.

Ví dụ, chúng ta có thể thấy rằng sự khác biệt giữa ANCOVA so với OLS với các biến giả (hoặc phân loại) (trong cả hai trường hợp có tương tác) đều là mỹ phẩm. Xin thứ lỗi cho sự ra đi của tôi từ giới hạn trong tiêu đề câu hỏi của bạn, liên quan đến nhiều hồi quy tuyến tính.

Trong cả hai trường hợp, mô hình về cơ bản giống hệt với điểm trong R , lmhàm được sử dụng để thực hiện ANCOVA . Tuy nhiên, nó có thể được trình bày khác nhau liên quan đến việc bao gồm một phần chặn tương ứng với mức (hoặc nhóm) đầu tiên của biến nhân tố (hoặc phân loại) trong mô hình hồi quy.

Trong một mô hình cân bằng ( các nhóm có kích thước bằng nhau , ) và chỉ một biến số (để đơn giản hóa việc trình bày ma trận), có thể gặp ma trận mô hình trong ANCOVA như một số biến thể của:n 1 , 2 , in1,2,i

X= =[1n100xn10001n200xn20001n300xn3]

cho nhóm biến nhân tố, được biểu thị dưới dạng ma trận khối.3

Điều này tương ứng với mô hình tuyến tính:

α i β

y= =αtôi+β1xn1+β2xn2+β3xn3+εtôi
với tương đương với nhóm khác nhau có nghĩa là trong ANOVA mô hình, trong khi các khác nhau là các sườn của hiệp phương sai cho mỗi một trong các nhóm.αtôiβ

Việc trình bày cùng một mô hình trong trường hồi quy, và cụ thể trong R, xem xét một đánh chặn tổng thể, tương ứng với một trong các nhóm và ma trận mô hình có thể được trình bày như sau:

X= =[00000J3n,11n20x0xn2001n300xn3]

của phương trình OLS:

y= =β0+μtôi+β1xn1+β2xn2+β3xn3+εtôi
.

Trong mô hình này, phần chặn tổng thể được sửa đổi ở mỗi cấp độ nhóm theo và các nhóm cũng có độ dốc khác nhau.μ iβ0μtôi

Như bạn có thể thấy từ các ma trận mô hình, bài thuyết trình tin vào danh tính thực tế giữa hồi quy và phân tích phương sai.

Tôi thích loại xác minh điều này với một số dòng mã và dữ liệu yêu thích của tôi thiết lập mtcarstrong R . Tôi đang sử dụng lmcho ANCOVA theo giấy của Ben Bolker tại đây .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Về phần câu hỏi về cách sử dụng phương pháp nào (hồi quy với R!) Bạn có thể thấy thú vị với lời bình luận trực tuyến này mà tôi đã gặp trong khi viết bài đăng này.


1
Cảm ơn bạn vì nhận xét cực kỳ hữu ích này ... Trích dẫn từ bình luận bạn đã liên kết: "Sử dụng hồi quy khi bạn không chắc chắn liệu các biến phân loại độc lập có ảnh hưởng gì không. Sử dụng ANOVA khi bạn muốn xem liệu các danh mục cụ thể có hiệu ứng khác nhau không . " Vậy làm thế nào nhiều nghiên cứu thử nghiệm sử dụng ANOVA sau đó? Từ hồi quy hiểu biết của tôi sẽ là lựa chọn đúng đắn. Có phải các nhà nghiên cứu quá tin rằng các hiệu ứng là có và chỉ tìm kiếm các cách để thống kê "chứng minh" chúng?
florian

Bạn có thể cung cấp một ví dụ thực tế trong đó người ta nên sử dụng aov trên hồi quy và giải thích tại sao? Cảm ơn thời gian của bạn. Tôi cũng là một nhà tâm lý học bằng cách đào tạo và không thấy được những lợi thế của Anova ngoại trừ điều đó có thể được công bố dễ dàng hơn.
florian

Bất kỳ may mắn? Tôi sẽ rất quan tâm đến bất kỳ heuristic cụ thể nào để ủng hộ một trong hai loại thủ tục, vì vậy hãy chia sẻ nếu bạn tìm thấy câu trả lời.
Antoni Parellada

Thật không may, không có khám phá mới nào trên hành trình của tôi vào Thống kê cho đến nay ... sẽ giữ cho bạn được đăng, nhiều thông tin đầu vào được đánh giá cao.
florian

Tôi đang gặp khó khăn để hiểu ma trận mô hình OLS và phương trình tương ứng ở đây. Tôi không hiểu cột số 0 đến từ đâu (cột thứ 5 của ma trận). Ngoài ra, tôi nghĩ rằng phương trình nên tương ứng với các cột (tức là mu_i chỉ nên dành cho hai nhóm và biến x nên được đưa vào mà không có tương tác với một hình nộm nhóm). Làm rõ thêm được đánh giá cao!
Nick

4

Hồi quy ANOVA và OLS giống hệt nhau về mặt toán học trong trường hợp các yếu tố dự đoán của bạn là phân loại (theo các suy luận bạn đang rút ra từ thống kê kiểm tra). Nói cách khác, ANOVA là một trường hợp đặc biệt của hồi quy. Không có gì mà ANOVA có thể cho bạn biết rằng hồi quy không thể tự xuất phát. Tuy nhiên, điều ngược lại là không đúng sự thật. ANOVA không thể được sử dụng để phân tích với các biến liên tục. Như vậy, ANOVA có thể được phân loại là kỹ thuật hạn chế hơn. Hồi quy, tuy nhiên, không phải lúc nào cũng thuận tiện cho các nhà phân tích kém tinh vi. Ví dụ: hầu hết các tập lệnh ANOVA tự động tạo các thuật ngữ tương tác, trong đó với hồi quy, bạn thường phải tự tính toán các thuật ngữ đó bằng phần mềm. Việc sử dụng rộng rãi ANOVA là một phần di tích của phân tích thống kê trước khi sử dụng phần mềm thống kê mạnh hơn, và, theo tôi, một kỹ thuật dễ dàng hơn để dạy cho những sinh viên thiếu kinh nghiệm có mục tiêu là sự hiểu biết ở mức độ tương đối sẽ cho phép họ phân tích dữ liệu với gói thống kê cơ bản. Thỉnh thoảng hãy thử ... Kiểm tra thống kê t rằng một hồi quy cơ bản xuất hiện, bình phương nó, và sau đó so sánh nó với tỷ lệ F từ ANOVA trên cùng một dữ liệu. Đồng nhất!


Đây không phải là sự thật.
Michael R. Chernick

4
@MichaelCécick Bạn có thể nói rõ hơn về những khẳng định nào trong câu trả lời này mà bạn cho là không đúng? Mặc dù phải mất một số vị trí cực đoan, thật khó để tìm thấy bất kỳ vị trí nào là sai.
whuber

Tôi phản đối tuyên bố rằng hồi quy ANOVA và OLS giống hệt nhau về mặt toán học. Tôi nhận ra rằng ANOVA có thể được xem như là hồi quy tại một dạng của mô hình tuyến tính tổng quát có thể được xây dựng như hồi quy.
Michael R. Chernick

Trong trường hợp OLS, làm thế nào chúng không giống nhau ngoài đầu ra? Mô hình cơ bản là như nhau, phần dư là như nhau, giá trị p mà chúng tạo ra là như nhau. Đó là đầu ra khác nhau.
dbwilson

2

Theo tôi, lợi ích chính của hồi quy ANOVA ovethe r là ở đầu ra. Nếu bạn quan tâm đến ý nghĩa thống kê của biến phân loại (yếu tố) dưới dạng một khối, thì ANOVA cung cấp thử nghiệm này cho bạn. Với hồi quy, biến phân loại được biểu thị bằng 2 hoặc nhiều biến giả, tùy thuộc vào số lượng danh mục và do đó bạn có 2 hoặc nhiều kiểm tra thống kê, mỗi phép so sánh giá trị trung bình của danh mục cụ thể với giá trị trung bình của danh mục null (hoặc trung bình tổng thể, tùy thuộc vào phương pháp mã hóa giả). Không ai trong số này có thể được quan tâm. Do đó, bạn phải thực hiện phân tích sau ước lượng (về cơ bản là ANOVA) để có được bài kiểm tra tổng thể về yếu tố mà bạn quan tâm.


Trên thực tế, điều này là không đúng sự thật. Nếu bạn thực hiện kiểm tra tỷ lệ khả năng, bạn đang kiểm tra toàn bộ yếu tố phân loại dưới dạng một khối trong mô hình hồi quy.
Dan Chaltiel

Nhận xét của bạn không mâu thuẫn với những gì tôi nói. Kiểm tra tỷ lệ khả năng mà bạn đề cập sẽ là phân tích sau ước lượng về yếu tố, so sánh mô hình với yếu tố với mô hình mà không có.
dbwilson

Nếu bạn thực hiện ANOVA, bạn sẽ nhận được giá trị cho "biến phân loại (yếu tố) là một khối", do đó, hồi quy với LRT. Hồi quy có thể cung cấp cho bạn một số bản beta nhưng sẽ không thực hiện nhiều thử nghiệm hơn ANOVA, do đó, tuyên bố của bạn "do đó bạn có 2 hoặc nhiều thử nghiệm thống kê" có vẻ sai đối với tôi. Tại sao LRT sẽ "hậu ước tính" hơn ANOVA?
Dan Chaltiel

1

Ưu điểm chính của hồi quy tuyến tính là mạnh mẽ đối với việc vi phạm tính đồng nhất của phương sai khi kích thước mẫu giữa các nhóm không bằng nhau. Một điều nữa là nó tạo điều kiện cho việc đưa vào một số đồng biến (mặc dù điều này cũng có thể dễ dàng thực hiện thông qua ANCOVA khi bạn quan tâm đến việc chỉ bao gồm một hiệp phương sai). Hồi quy trở nên phổ biến trong những năm bảy mươi trong sự ra đời của những tiến bộ trong sức mạnh tính toán. Bạn cũng có thể thấy hồi quy thuận tiện hơn nếu bạn đặc biệt quan tâm đến việc kiểm tra sự khác biệt giữa các cấp cụ thể của biến phân loại khi có nhiều hơn hai cấp (miễn là bạn thiết lập biến giả trong hồi quy sao cho một trong hai cấp này đại diện cho nhóm tham khảo).


1
Như đã chỉ ra trong câu trả lời khác, ANOVA một hồi quy bội.
gung - Phục hồi Monica

Cảm ơn bạn, vậy những lợi thế của Anova là gì? Tại sao bạn sẽ sử dụng Anova / Ancova trên mô hình hồi quy?
florian

Tôi có một câu hỏi ở đây. Tại sao bạn lại biểu thị 'chỉ một đồng biến' khi giải thích tính hữu ích của ANCOVA? Có phải vì bạn chỉ có thể bao gồm một đồng biến trong ANCOVA?
Kevin Kang
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.