R: Anova và hồi quy tuyến tính


9

Tôi chưa quen với thống kê và tôi đang cố gắng tìm hiểu sự khác biệt giữa ANOVA và hồi quy tuyến tính. Tôi đang sử dụng R để khám phá điều này. Tôi đọc các bài viết khác nhau về lý do tại sao ANOVA và hồi quy khác nhau nhưng vẫn giống nhau và làm thế nào có thể được hình dung, v.v ... Tôi nghĩ rằng tôi đẹp ở đó nhưng vẫn còn thiếu một chút.

Tôi hiểu rằng ANOVA so sánh phương sai trong các nhóm với phương sai giữa các nhóm để xác định xem có hay không có sự khác biệt giữa bất kỳ nhóm nào được kiểm tra. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Đối với hồi quy tuyến tính, tôi đã tìm thấy một bài đăng trong diễn đàn này nói rằng có thể kiểm tra tương tự khi chúng tôi kiểm tra xem b (độ dốc) = 0. ( Tại sao ANOVA được dạy / sử dụng như thể đó là một phương pháp nghiên cứu khác so với hồi quy tuyến tính? )

Trong hơn hai nhóm, tôi tìm thấy một trang web nêu rõ:

Giả thuyết là:H0:µ1=µ2=µ3

Mô hình hồi quy tuyến tính là: y=b0+b1X1+b2X2+e

Tuy nhiên, đầu ra của hồi quy tuyến tính là đánh chặn cho một nhóm và sự khác biệt đối với chặn này đối với hai nhóm còn lại. ( http://www.real-statistic.com/multipl-regression/anova-USE-regression/ )

Đối với tôi, điều này có vẻ như thực sự là các phần chặn được so sánh và không phải là độ dốc?

Một ví dụ khác mà họ so sánh các phần chặn thay vì các sườn có thể được tìm thấy ở đây: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Bây giờ tôi đang đấu tranh để hiểu những gì thực sự được so sánh trong hồi quy tuyến tính? các sườn dốc, các giao thoa hay cả hai?


Câu trả lời:


16

Điều này có vẻ như thực sự là các phần chặn được so sánh và không phải là độ dốc?

Sự nhầm lẫn của bạn ở đó liên quan đến thực tế là bạn phải rất cẩn thận để rõ ràng về ý nghĩa của việc chặn và dốc của bạn (chặn những gì? Độ dốc của những gì?).

Vai trò của một hệ số của một hình nộm 0-1 trong hồi quy có thể được coi là cả độ dốc sự khác biệt của các phần chặn.

Hãy đơn giản hóa mọi thứ càng nhiều càng tốt, bằng cách xem xét trường hợp hai mẫu.

Chúng ta vẫn có thể thực hiện ANOVA một chiều với hai mẫu nhưng về cơ bản nó giống như một thử nghiệm t hai mẫu hai đuôi (trường hợp phương sai bằng nhau).

Dưới đây là sơ đồ về tình hình dân số:

Hai nhóm có nghĩa là hồi quy, tình hình dân số

Nếu , thì mô hình tuyến tính dân số làδ=μ2μ1

y=μ1+δx+e

sao cho khi (đó là trường hợp khi chúng tôi ở nhóm 1), giá trị trung bình của là và khi (khi chúng tôi ở nhóm 2) , giá trị trung bình của là .x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2μ1=μ2

Đó là hệ số của độ dốc ( trong trường hợp này) và sự khác biệt về phương tiện (và bạn có thể nghĩ những phương tiện đó là chặn) là cùng một đại lượng.δ

Để giúp cụ thể hóa, đây là hai mẫu:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Họ trông như thế nào?

lô mẫu

Những gì kiểm tra sự khác biệt trong phương tiện trông như thế nào?

Như một bài kiểm tra t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Như một hồi quy:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Chúng ta có thể thấy trong hồi quy rằng thuật ngữ chặn là giá trị trung bình của nhóm 1 và hệ số nhóm 2 (hệ số 'độ dốc) là sự khác biệt về phương tiện nhóm. Trong khi đó, giá trị p cho hồi quy giống như giá trị p cho phép thử t (0,003976)


Cảm ơn bạn rất nhiều vì ví dụ cực kỳ hữu ích này. Tôi chỉ nhận ra rằng vẫn còn một câu hỏi mở. Tôi không hiểu tại sao độ dốc được ký hiệu là μ2 1? Không phải độ dốc được xác định là m = delta Y / delta X ??
Paul

2
Đó là; nhưng và và vì vậy . Nói tóm lại, khi bạn viết mã là 0/1, độ dốc là sự khác biệt. Δ y = ( μ 1 + δ × 1 ) - ( μ 1 + δ × 0 ) = δ = μ 2 - μ 1 Δ y / Δ x = ( μ 2 - μ 1 ) / 1 = μ 2 - μ 1Δx=10=1Δy=(μ1+δ×1)(μ1+δ×0)=δ=μ2μ1Δy/Δx=(μ2μ1)/1=μ2μ1
Glen_b -Reinstate Monica

+1 minh họa đồ họa về lý do tại sao độ dốc bằng với sự khác biệt về phương tiện đã giúp tôi rất nhiều !!
Haitao Du
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.