Tại sao ANOVA được dạy / sử dụng như thể nó là một phương pháp nghiên cứu khác so với hồi quy tuyến tính?


91

ANOVA tương đương với hồi quy tuyến tính với việc sử dụng các biến giả phù hợp. Các kết luận vẫn giống nhau bất kể bạn sử dụng ANOVA hay hồi quy tuyến tính.

Trong ánh sáng tương đương của chúng, có lý do nào khiến ANOVA được sử dụng thay vì hồi quy tuyến tính không?

Lưu ý: Tôi đặc biệt thích nghe về lý do kỹ thuật cho việc sử dụng ANOVA thay vì hồi quy tuyến tính.

Biên tập

Đây là một ví dụ sử dụng ANOVA một chiều. Giả sử, bạn muốn biết chiều cao trung bình của nam và nữ là như nhau. Để kiểm tra giả thuyết của bạn, bạn sẽ thu thập dữ liệu từ một mẫu nam và nữ ngẫu nhiên (giả sử 30 mẫu) và thực hiện phân tích ANOVA (nghĩa là tổng bình phương cho giới tính và lỗi) để quyết định xem có tồn tại hiệu ứng hay không.

Bạn cũng có thể sử dụng hồi quy tuyến tính để kiểm tra điều này như sau:

Xác định: nếu người trả lời là nam và nếu không. trong đó:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Sau đó, một bài kiểm tra xem có phải là một bài kiểm tra tương đương cho giả thuyết của bạn hay không.β=0


2
Nếu tôi không nhầm, hồi quy tuyến tính là ước tính các hệ số xác định bản đồ tuyến tính tốt từ X đến Y. ANOVA là một thử nghiệm để biết liệu có sự khác biệt đáng kể nào trong X khi Y lấy hai giá trị khác nhau hay không. Bạn có thể giải thích cho chúng tôi tại sao bạn nghĩ rằng họ giống nhau?
cướp girard

28
ANOVA có thể được coi là "đường cú pháp" cho một nhóm nhỏ đặc biệt của mô hình hồi quy tuyến tính. ANOVA thường được sử dụng bởi các nhà nghiên cứu không phải là nhà thống kê bằng cách đào tạo. Bây giờ chúng được "thể chế hóa" và thật khó để chuyển chúng trở lại bằng cách sử dụng đại diện tổng quát hơn ;-)
suncoolsu

3
Đánh giá cao nhận xét của bạn, nhưng các nhà thực nghiệm thậm chí còn điên rồ hơn tôi nghĩ nếu đây là đường cú pháp cho họ! Phiên bản nào trực quan hơn .... Thử nghiệm giả thuyết ANOVA trên : tỷ lệ phương sai được giải thích với phương sai không giải thích được có đủ cao không? Kiểm tra T về thuật ngữ của mô hình hồi quy: hiệu ứng của có đủ khác 0 không? Và, với công thức sau, bạn cũng có được hướng thay đổi. Và, nếu bạn phải chuyển đổi dữ liệu, bạn có thể chuyển đổi lại ước tính tham số thành một đại lượng có ý nghĩa vật lý. Không giống như SS. βββ
F1r3br4

Câu trả lời:


55

Là một nhà kinh tế, việc phân tích phương sai (ANOVA) được dạy và thường được hiểu liên quan đến hồi quy tuyến tính (ví dụ trong Khóa học về Kinh tế lượng của Arthur Goldberger ). Các nhà kinh tế / Kinh tế lượng thường xem ANOVA là không thú vị và thích chuyển thẳng sang mô hình hồi quy. Từ quan điểm của các mô hình tuyến tính (hoặc thậm chí tổng quát), ANOVA gán các hệ số thành các lô, với mỗi lô tương ứng với một "nguồn biến thể" trong thuật ngữ ANOVA.

Nói chung, bạn có thể sao chép các suy luận bạn sẽ thu được từ ANOVA bằng cách sử dụng hồi quy nhưng không phải luôn luôn là hồi quy OLS. Các mô hình đa cấp là cần thiết để phân tích các cấu trúc dữ liệu phân cấp, chẳng hạn như "thiết kế biểu đồ phân chia", trong đó các hiệu ứng giữa các nhóm được so sánh với các lỗi cấp độ nhóm và các hiệu ứng trong nhóm được so sánh với các lỗi cấp độ dữ liệu. Bài viết của Gelman [1] đi sâu vào chi tiết về vấn đề này và lập luận một cách hiệu quả rằng ANOVA là một công cụ thống kê quan trọng vẫn nên được dạy cho chính nó.

Cụ thể Gelman lập luận rằng ANOVA là một cách hiểu và cấu trúc các mô hình đa cấp. Do đó ANOVA không phải là một giải pháp thay thế cho hồi quy mà là một công cụ để tóm tắt các suy luận chiều cao phức tạp và để phân tích dữ liệu thăm dò.

Gelman là một nhà thống kê được kính trọng và một số tín nhiệm nên được đưa ra cho quan điểm của mình. Tuy nhiên, hầu hết tất cả các công việc thực nghiệm mà tôi làm sẽ được phục vụ tốt như nhau bằng hồi quy tuyến tính và vì vậy tôi chắc chắn rơi vào trại xem nó là một chút vô nghĩa. Một số ngành học với thiết kế nghiên cứu phức tạp (ví dụ tâm lý học) có thể thấy ANOVA hữu ích.

[1] Gelman, A. (2005). Phân tích phương sai: tại sao nó quan trọng hơn bao giờ hết (với thảo luận). Biên niên sử Thống kê 33, 1 Hàng53. doi: 10.1214 / 009053604000001048


1
Cảm ơn đã tham khảo Gelman. Tôi sẽ đọc bài báo của anh ấy. Nhưng, chúng ta có thể phân tích các mô hình đa cấp bằng khả năng tối đa cổ điển không? Tôi đồng ý rằng OLS không hiệu quả / không phù hợp với các mô hình đa cấp.

3
@Srikant - có nhiều cách để xử lý dữ liệu đa cấp và Gelman là "vua" của lĩnh vực này. Quan điểm của ông là ANOVA là một phương pháp đơn giản / rõ ràng để nắm bắt các tính năng chính của cấu trúc dữ liệu phức tạp và phân cấp hoặc thiết kế nghiên cứu và ANOVA là một cách đơn giản / rõ ràng để trình bày các kết quả chính. Theo nghĩa này, vai trò của nó là bổ sung hoặc thăm dò.
Graham Cookson

1
+1 cho một câu trả lời rõ ràng tốt đẹp. Đoạn 3 về cơ bản là những gì tôi được dạy khi còn là sinh viên đại học, với trọng tâm là sự dễ dàng kết hợp các biến độc lập liên tục và phân loại trong khung ANOVA.
Freya Harrison

23

Tôi nghĩ rằng đoạn thứ hai của Graham là trọng tâm của vấn đề. Tôi nghi ngờ nó không quá kỹ thuật so với lịch sử, có lẽ là do ảnh hưởng của " Phương pháp thống kê cho công nhân nghiên cứu " và việc giảng dạy / áp dụng công cụ cho những người không thống kê trong phân tích thử nghiệm liên quan đến các yếu tố rời rạc, thay vì đi sâu vào xây dựng mô hình và các công cụ liên quan. Trong thống kê, ANOVA thường được dạy như một trường hợp hồi quy đặc biệt. (Tôi nghĩ rằng điều này tương tự như lý do tại sao các thống kê sinh học chứa đầy vô số "thử nghiệm" đồng nghĩa thay vì nhấn mạnh việc xây dựng mô hình.)


14

Tôi muốn nói rằng một số bạn đang sử dụng thuật ngữ hồi quy khi bạn nên sử dụng mô hình tuyến tính nói chung. Tôi nghĩ về hồi quy như một glm liên quan đến hiệp phương sai liên tục. Khi hiệp phương sai liên tục được kết hợp với các biến giả nên được gọi là phân tích hiệp phương sai. Nếu chỉ sử dụng các biến giả, chúng ta gọi dạng glm đặc biệt đó là phân tích phương sai. Tôi nghĩ rằng phân tích phương sai có ý nghĩa thứ hai khác biệt là thủ tục kiểm tra các hệ số có ý nghĩa trong một glm bằng cách sử dụng phân rã phương sai thành các thành phần thuật ngữ mô hình và thành phần thuật ngữ lỗi.


2
(+1) Tôi cũng đã ngay lập tức lưu ý thuật ngữ "hồi quy" mơ hồ trong suốt cuộc thảo luận.
Stéphane Laurent

1
(+1) GLM có thể là cách tốt nhất để loại bỏ các ý nghĩa khác nhau. Cũng cần lưu ý rằng trong lịch sử các quy trình tính toán ANOVA đã được sử dụng làm che khuất mối quan hệ betweeen OLS và ANOVA. Danh pháp do đó có thể được biện minh bởi lý do lịch sử.
JANK

10

ANOVA có thể được sử dụng với các biến giải thích phân loại (yếu tố) có nhiều hơn 2 giá trị (cấp độ) và đưa ra một thử nghiệm cơ bản rằng đáp ứng trung bình là giống nhau cho mọi giá trị. Điều này tránh được vấn đề hồi quy khi thực hiện nhiều bài kiểm tra t cặp đôi giữa các cấp độ đó:

  • Nhiều bài kiểm tra t ở mức ý nghĩa 5% cố định, sẽ khiến khoảng 5% trong số chúng cho kết quả sai.
  • Các xét nghiệm này không độc lập với nhau. So sánh cấp độ của A với B được kết nối với việc so sánh A với C, vì dữ liệu của A được sử dụng trong cả hai thử nghiệm.

Tốt hơn là sử dụng độ tương phản cho các kết hợp khác nhau trên các cấp độ yếu tố bạn muốn kiểm tra.


1
Bạn có thể muốn làm rõ câu trả lời này; như đã viết, tôi thấy 3 vấn đề. 2 đầu tiên là một chút kén chọn nhưng vẫn nên được chỉnh sửa, thứ ba là thực chất trong bối cảnh của cuộc thảo luận này. (1) ANOVA có thể được sử dụng chỉ với 2 nhóm (mặc dù hầu hết mọi người chỉ chạy thử nghiệm t sau đó). (2) nhiều thử nghiệm t w / sẽ mang lại các lỗi loại I không có triệu chứng cho 5% các trường hợp tương phản khi không có sự khác biệt thực tế ; có bao nhiêu lỗi sẽ xảy ra tùy thuộc vào có bao nhiêu null là đúng. α=.05
gung

7
(3) câu trả lời của bạn ngụ ý vấn đề so sánh nhiều áp dụng cho hồi quy OLS, điều mà nó không, khi được tiến hành đúng. Cách thích hợp để kiểm tra một yếu tố trong bối cảnh hồi quy là kiểm tra mô hình lồng nhau với tất cả các yếu tố giả được thả xuống so với mô hình đầy đủ với tất cả các yếu tố giả bao gồm. Thử nghiệm này giống hệt với thử nghiệm ANOVA tiến hành. Đúng là bạn không nên sử dụng các thử nghiệm của các biến giả (mà tôi nghi ngờ là những gì bạn đang cố gắng mô tả ở đây).
gung

3

ANOVA bạn đang kiểm tra xem có sự khác biệt đáng kể giữa dân số có nghĩa là giả sử bạn đang so sánh nhiều hơn hai phương tiện dân số, thì bạn sẽ sử dụng thử nghiệm F.

Trong phân tích hồi quy, bạn xây dựng một mô hình giữa các biến độc lập và biến phụ thuộc. Nếu bạn có một biến độc lập với bốn cấp độ, bạn có thể sử dụng ba biến giả và chạy mô hình hồi quy. Kiểm tra F cho mô hình hồi quy được sử dụng để kiểm tra tầm quan trọng của mô hình hồi quy giống như F mà bạn nhận được khi kiểm tra sự khác biệt giữa các nhóm dân số. Nếu bạn chạy hồi quy từng bước thì một số biến giả có thể được loại bỏ khỏi mô hình và giá trị F của bạn sẽ khác với khi bạn thực hiện kiểm tra ANOVA.


5
Điều này làm cho ANOVA trở thành một quy trình thử nghiệm và hồi quy là một quy trình mô hình hóa trong đó bạn có thể thực hiện các thử nghiệm. Nhưng ANOVA cũng có một mô hình cơ bản, bất kể điều này được nhấn mạnh trong tất cả các phương pháp điều trị giới thiệu. Vì vậy, câu trả lời này không nắm bắt được bất kỳ sự khác biệt giữa chúng. Nó cũng không được giải quyết tại câu hỏi, đó là lý do tại sao chúng được dạy là khác nhau bất kể sự tương đồng mạnh mẽ.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.