Làm thế nào là hồi quy, kiểm tra t và ANOVA tất cả các phiên bản của mô hình tuyến tính nói chung?


49

Câu trả lời:


47

Hãy xem xét rằng tất cả chúng có thể được viết dưới dạng phương trình hồi quy (có lẽ với cách hiểu hơi khác so với các dạng truyền thống của chúng).

Hồi quy:

Y= =β0+β1X(tiếp diễn)+εỞ đâu ε~VIẾT SAI RỒI(0,σ2)

kiểm tra t:

Y= =β0+β1X(mã giả)+εỞ đâu ε~VIẾT SAI RỒI(0,σ2)

ANOVA:

Y= =β0+β1X(mã giả)+εỞ đâu ε~VIẾT SAI RỒI(0,σ2)

Hồi quy nguyên mẫu được khái niệm hóa với là một biến liên tục. Tuy nhiên, giả định duy nhất thực sự được thực hiện về là nó là một vectơ của các hằng số đã biết. Nó có thể là một biến liên tục, nhưng nó cũng có thể là một mã giả (ví dụ: vectơ 's & ' cho biết liệu một quan sát có phải là thành viên của một nhóm được chỉ định hay không - ví dụ: nhóm điều trị). Do đó, trong phương trình thứ hai, có thể là một mã giả như vậy và giá trị p sẽ giống như trong phép thử t ở dạng truyền thống hơn. X 0 1 XXX01X

Ý nghĩa của betas sẽ khác nhau ở đây, mặc dù. Trong trường hợp này, sẽ là giá trị trung bình của nhóm kiểm soát (trong đó các mục trong biến giả sẽ là ) và sẽ là sự khác biệt giữa giá trị trung bình của nhóm điều trị và giá trị trung bình của nhóm kiểm soát nhóm. 0 β 1β00β1

Bây giờ, hãy nhớ rằng việc có / chạy ANOVA chỉ với hai nhóm là hoàn toàn hợp lý (mặc dù thử nghiệm t sẽ phổ biến hơn) và bạn có cả ba kết nối. Nếu bạn thích xem nó hoạt động như thế nào nếu bạn có ANOVA với 3 nhóm; đó sẽ là: Lưu ý rằng khi bạn có các nhóm , bạn có mã giả để đại diện cho chúng. Nhóm tham chiếu (thường là nhóm kiểm soát) được biểu thị bằng cách có 'cho tất cảg g - 1 0 β 0 β 1 β 2

Y= =β0+β1X(mã giả 1)+β2X(mã giả 2)+εỞ đâu ε~VIẾT SAI RỒI(0,σ2)
gg-10mã giả (trong trường hợp này, cả mã giả 1 & mã giả 2). Trong trường hợp này, bạn sẽ không muốn diễn giải các giá trị p của các phép thử t cho các betas đi kèm với đầu ra thống kê tiêu chuẩn - chúng chỉ cho biết liệu nhóm được chỉ định có khác với nhóm kiểm soát hay không khi được đánh giá tách biệt . Đó là, các xét nghiệm này không độc lập. Thay vào đó, bạn sẽ muốn đánh giá xem nhóm có nghĩa là khác nhau hay không bằng cách xây dựng bảng ANOVA và tiến hành kiểm tra F. Đối với giá trị của nó, các betas được diễn giải giống như với phiên bản thử nghiệm t được mô tả ở trên: là giá trị trung bình của nhóm kiểm soát / tham chiếu, chỉ ra sự khác biệt giữa phương tiện của nhóm 1 và nhóm tham chiếu vàβ0β1β2chỉ ra sự khác biệt giữa nhóm 2 và nhóm tham chiếu.

Trong ánh sáng của @ whuber của ý kiến dưới đây, những cũng có thể được biểu diễn qua phương trình ma trận: Người đại diện theo cách này, & là vectơ có độ dài và là một vectơ có độ dài . hiện là ma trận có hàng và cột . Trong một hồi quy nguyên mẫu, bạn có biến liên tục và chặn. Do đó, ma trận của bạn bao gồm một loạt các vectơ cột cạnh nhau, một cho mỗi
Y ε N β p + 1 X N ( p + 1 ) p X X X 1

Y= =Xβ+ε
YεVIẾT SAI RỒIβp+1XVIẾT SAI RỒI(p+1)pXXXbiến, với một cột 'ở phía bên trái cho phần chặn. 1

Nếu bạn đại diện cho ANOVA với các nhóm theo cách này, hãy nhớ rằng bạn sẽ có các biến giả chỉ ra các nhóm, với nhóm tham chiếu được chỉ ra bởi một quan sát có 'trong mỗi biến giả. Như trên, bạn vẫn sẽ có một đánh chặn. Do đó, . g - 1 0 p = g - 1gg-10p= =g-1


1
Phương trình ANOVA sẽ có ý nghĩa như một ANOVA (chứ không phải kiểm tra t) chỉ khi được hiểu là một vectơ và nhân lên ở bên phải. β1
whuber

Đây không phải là phương trình ma trận; Tôi hiếm khi sử dụng chúng ở đây, vì nhiều người không đọc chúng. ANOVA thứ 1 đại diện cho một tình huống giống hệt như thử nghiệm t trước đó. Tôi chỉ chỉ ra rằng nếu bạn có thể chạy thử nghiệm t độc lập 2 mẫu, bạn có thể chạy cùng dữ liệu với ANOVA (mà nhiều người nên nhận ra / ghi nhớ từ lớp 101 chỉ số của họ). Tôi thêm một phiên bản ANOVA khác với 3 nhóm thấp hơn để làm rõ rằng tình huống 2 nhóm không phải là trường hợp ANOVA duy nhất có thể hiểu là hồi quy; nhưng phương trình reg bây giờ trông khác - tôi đã cố gắng duy trì song song rõ ràng hơn ở trên.
gung - Phục hồi Monica

Quan điểm của tôi là, trừ khi bạn làm cho nó một phương trình ma trận, đặc tính của bạn của ANOVA là quá giới hạn có ích: nó là giống hệt nhau để mô tả đặc điểm của bạn của t-test và như vậy là khó hiểu hơn nó là hữu ích. Khi bạn bắt đầu giới thiệu nhiều nhóm hơn, bạn đột nhiên thay đổi phương trình, điều này cũng có thể không rõ ràng. Cho dù bạn muốn sử dụng ký hiệu ma trận tất nhiên là tùy thuộc vào bạn, nhưng vì lợi ích của việc giao tiếp tốt, bạn nên cố gắng cho sự nhất quán.
whuber

Bạn có thể vui lòng giải thích thêm một chút về cách bạn đi từ định nghĩa phổ biến của kiểm tra t đến phương trình bạn đã trình bày. Về cơ bản tôi không thể hiểu Y là gì ở đây (nó có thể là ngây thơ hoặc kém IQ cho các số liệu thống kê). Tuy nhiên, làm thế nào để đến từ t = (yx-u0) / s đến phương trình này.
Gaurav Singhal

Nó không, mặc dù điều này có thể xa lạ với bạn. là liên tục (& giả định có điều kiện bình thường) trong tất cả các trường hợp được liệt kê. Không có giả định phân phối về , nó có thể là liên tục, phân đôi hoặc biến phân loại đa cấp. XYX
gung - Phục hồi Monica

16

Tất cả chúng có thể được viết như các trường hợp cụ thể của mô hình tuyến tính nói chung.

Thử nghiệm t là trường hợp hai mẫu của ANOVA. Nếu bạn bình phương thống kê kiểm tra t, bạn sẽ nhận được tương ứng trong ANOVA.ĐỤ

Một mô hình ANOVA về cơ bản chỉ là một mô hình hồi quy trong đó các mức yếu tố được biểu thị bằng các biến giả (hoặc chỉ báo ) .

Vì vậy, nếu mô hình cho phép thử t là tập con của mô hình ANOVA và ANOVA là tập con của mô hình hồi quy bội, thì chính hồi quy (và những thứ khác ngoài hồi quy) là tập con của mô hình tuyến tính tổng quát , mở rộng hồi quy thành đặc điểm kỹ thuật chung hơn của thuật ngữ lỗi so với trường hợp hồi quy thông thường (đó là 'độc lập' và 'phương sai bằng nhau') và đối với đa biến .Y


Dưới đây là một ví dụ cho thấy sự tương đương khác thường (tương đương-sai) hai sample- phân tích và thử nghiệm giả thuyết trong mô hình hồi quy, thực hiện trong R (ngoại hình dữ liệu thực tế để được ghép nối, vì vậy đây không phải là thực sự là một phân tích phù hợp) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Lưu ý giá trị p của 0,079 ở trên. Đây là một cách anova:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Bây giờ cho hồi quy:

> summary(lm(extra ~ group, data = sleep))

(một số đầu ra bị loại bỏ)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

So sánh giá trị p trong hàng 'nhóm2' và giá trị p cho thử nghiệm F ở hàng cuối cùng. Đối với thử nghiệm hai đuôi, đây là giống nhau và cả hai đều khớp với kết quả thử nghiệm t.

Hơn nữa, hệ số cho 'nhóm2' thể hiện sự khác biệt về phương tiện cho hai nhóm.


Có cùng một giá trị p trong cả 3 kịch bản là kỳ diệu và ấn tượng, tuy nhiên nếu bạn có thể giải thích thêm một chút về cách các giá trị p này được tính toán, chắc chắn sẽ làm cho câu trả lời này thú vị hơn . Tôi không biết nếu hiển thị các tính toán giá trị p cũng sẽ làm cho nó hữu ích hơn , vì vậy đó là điều bạn có thể quyết định.
Gaurav Singhal

@Gaurav Các giá trị p là như nhau bởi vì bạn đang thử nghiệm cùng một giả thuyết trên cùng một mô hình, chỉ được biểu thị hơi khác nhau. Nếu bạn quan tâm đến cách tính một số giá trị p cụ thể, đó sẽ là một câu hỏi mới (nó sẽ không phải là một câu trả lời cho câu hỏi ở đây). Bạn có thể hỏi một câu hỏi như vậy mặc dù trước tiên hãy thử tìm kiếm vì nó có thể đã được trả lời.
Glen_b

Cảm ơn @Glen_b, xin lỗi vì đã hỏi một câu hỏi rõ ràng và đó cũng không phải là cách tốt nhất. Và bạn vẫn trả lời câu hỏi của tôi - "cùng một giả thuyết trên cùng một mô hình (và / hoặc dữ liệu)". Tôi đã không đưa ra đủ suy nghĩ về cách họ đang thử nghiệm cùng một giả thuyết. Cảm ơn
Gaurav Singhal

2

Câu trả lời này mà tôi đã đăng trước đó có phần phù hợp, nhưng câu hỏi này hơi khác.

[Y1Yviết sai rồi]= =[1x11x21x31xviết sai rồi][α0α1]+[ε1εviết sai rồi]
[Y1Yviết sai rồi]= =[10001000010001000010][α0αk]+[ε1εviết sai rồi]

2
Một số mô tả và nhận xét cho các câu hỏi sẽ hữu ích cho độc giả vì bây giờ họ phải đoán xem họ đến từ đâu và họ liên quan đến câu hỏi như thế nào ...
Tim

0

Anova tương tự như một thử nghiệm t cho sự bình đẳng của các phương tiện theo giả định về phương sai không xác định nhưng bằng nhau giữa các phương pháp điều trị. Điều này là do trong ANOVA MSE giống hệt với phương sai gộp được sử dụng trong kiểm tra t. Có các phiên bản khác của kiểm tra t như một cho các phương sai không bằng nhau và kiểm tra t-khôn ngoan theo cặp. Từ quan điểm này, kiểm tra t có thể linh hoạt hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.