Mối quan hệ giữa ANOVA để so sánh phương tiện của một số nhóm và ANOVA để so sánh các mô hình lồng nhau là gì?


11

Cho đến nay tôi đã thấy ANOVA được sử dụng theo hai cách:

Đầu tiên , trong văn bản thống kê giới thiệu của tôi, ANOVA được giới thiệu như một cách để so sánh các phương tiện của ba nhóm trở lên, như là một sự cải tiến so với so sánh theo cặp, để xác định xem một trong những phương tiện có sự khác biệt có ý nghĩa thống kê hay không.

Thứ hai , trong văn bản học thống kê của tôi, tôi đã thấy ANOVA được sử dụng để so sánh hai (hoặc nhiều) mô hình lồng nhau để xác định xem Mô hình 1, sử dụng tập hợp con của các dự đoán của Mô hình 2, có phù hợp với dữ liệu không, hoặc nếu đầy đủ Mẫu 2 là ưu việt.

Bây giờ tôi giả sử rằng bằng cách này hay cách khác, hai điều này thực sự rất giống nhau bởi vì cả hai đều sử dụng thử nghiệm ANOVA, nhưng trên bề mặt chúng có vẻ khá khác biệt với tôi. Đối với một, lần sử dụng đầu tiên so sánh ba hoặc nhiều nhóm, trong khi phương thức thứ hai có thể được sử dụng để chỉ so sánh hai mô hình. Ai đó làm ơn nhớ làm sáng tỏ mối liên hệ giữa hai cách sử dụng này?


2
Tóm lại, tôi nghĩ rằng "anova" thứ hai hoàn toàn không phải là ANOVA (nếu bạn đọc en.wikipedia.org/wiki/Analysis_of_variance bạn sẽ không thấy bất kỳ đề cập nào về so sánh mô hình lồng nhau). Đó là một en.wikipedia.org/wiki/F-test và nó được triển khai trong R dưới dạng anova()hàm, bởi vì ANOVA đầu tiên, thực, cũng đang sử dụng phép thử F. Điều này dẫn đến sự nhầm lẫn thuật ngữ.
amip nói phục hồi Monica

Cảm ơn tôi nghĩ bạn đánh vào đầu đinh! Tôi đã không nghĩ rằng anova()chức năng có thể làm nhiều hơn là chỉ ANOVA. Bài đăng này ủng hộ kết luận của bạn: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin

1
Tôi đã được một nhà thống kê học sinh dạy rằng ANOVA như một bài kiểm tra đa mẫu là điều tương tự với ANOVA như một bài kiểm tra tối cao mô hình lồng nhau. Theo cách hiểu của tôi, điều tương tự cũng có nghĩa là chúng ta so sánh tổng (hoặc trung bình) của phần dư do không có mô hình hoặc mô hình đơn giản hơn với phần dư do mô hình và kiểm tra F có thể áp dụng cho cả hai tình huống được đưa ra giả định. Câu trả lời tôi đã thử là hoàn toàn về điều đó. Bản thân tôi sẽ quan tâm đến việc tìm hiểu mối liên hệ giữa ít nhất một hệ số lm khác với số không (chỉ số F một mô hình) và tổng số dư.
Alexey Burnakov

Câu trả lời:


11

Theo hiểu biết của tôi, trực giác trừu tượng của ANOVA là như sau: Người ta phân tách các nguồn phương sai của biến quan sát theo nhiều hướng khác nhau và điều tra các đóng góp tương ứng. Nói chính xác hơn, người ta phân tách bản đồ nhận dạng thành một tổng số các phép chiếu và điều tra xem các phép chiếu / hướng nào đóng góp quan trọng vào việc giải thích phương sai và không. Cơ sở lý thuyết là định lý của Cochran .

Để bớt trừu tượng hơn, tôi bỏ mẫu thứ hai được OP đề cập vào khung vừa mô tả. Sau đó, tôi giải thích hình thức đầu tiên là trường hợp đặc biệt của hình thức thứ hai.

Chúng ta hãy xem xét một mô hình hồi quy với các biến giải thích (mô hình đầy đủ) và so sánh nó với mô hình bị hạn chế với các biến . WLOG, các biến cuối cùng của mô hình đầy đủ không được bao gồm trong mô hình bị hạn chế. Câu hỏi được trả lời bởi ANOVA làKKJJ

"Chúng ta có thể giải thích phương sai nhiều hơn đáng kể trong biến quan sát nếu chúng ta bao gồm biến bổ sung"J không?

Câu hỏi này được trả lời bằng cách so sánh các đóng góp phương sai của các biến đầu tiên , các biến tiếp theo và phần còn lại / không giải thích được (tổng bình phương còn lại). Sự phân tách này (thu được, ví dụ từ định lý của Cochran) được sử dụng để xây dựng phép thử F. Do đó, người ta phân tích mức giảm (bằng cách bao gồm nhiều biến hơn) trong tổng bình phương còn lại của mô hình bị hạn chế (tương ứng với tất cả các hệ số liên quan đến các biến cuối cùng đều bằng 0 ) bằng cách thêm nhiều biến số và có được thống kê F Nếu giá trị đủ lớn, thì phương sai được giải thích bởi bổ sungKJJH0: J

RSSrestrRSSfullJRSSfullNK
J các biến là đáng kể.

μAμBμCH0:μA=μB=μC

RSSinterceptRSSdummies2RSSdummiesN3

+1. Tôi tự hỏi nếu bạn đồng ý với nhận xét của tôi về thuật ngữ trong nhận xét ở đây: stats.stackexchange.com/questions/315979/#comment602611_315979 .
amip nói rằng phục hồi Monica

Tôi chắc chắn đồng ý rằng có rất nhiều nhầm lẫn về thuật ngữ ;-). Thông thường, tôi chỉ liên kết ANOVA với hình thức đầu tiên của OP. Tôi vừa xem cuốn sách "Phân tích phương sai" của Scheffé trong đó "thiết kế lồng nhau" được đề cập.
bmbb

@bmbb, tôi sẽ thêm vào nhận xét cuối cùng của bạn này: một trường hợp đơn giản trong đó chúng ta so sánh các mô hình lm lồng nhau, một trong số đó chỉ là chặn. Thực tế đã gây ấn tượng với tôi về mô hình bị chặn là khi chúng ta đề cập đến phần dư của nó, chúng ta thực sự đề cập đến phương sai của nó, vì phần dư được tính tương đối với một giá trị trung bình biến đổi (là phần chặn của mô hình) và chúng bị lệch mẫu trung bình. Do đó, chúng tôi vẫn phân tích phương sai trong trường hợp các mô hình lồng nhau, ngay cả khi chúng tôi chính thức phân tích phần dư.
Alexey Burnakov

6

Nếu bạn đang thực hiện ANOVA một chiều để kiểm tra xem có sự khác biệt đáng kể giữa các nhóm hay không, thì bạn đang so sánh hai mô hình lồng nhau (vì vậy chỉ có một cấp độ lồng nhau, nhưng nó vẫn đang lồng nhau).

Hai mô hình đó là:

  • yijijβ^0
    yij=β^0+ϵi
  • Mô hình 1: Các giá trị được mô hình hóa bằng các phương tiện ước tính của các nhóm.

    βj^

    yi=β^0+β^j+ϵi

Một ví dụ về so sánh các phương tiện và tương đương với các mô hình lồng nhau: hãy lấy chiều dài (cm) từ tập dữ liệu mống mắt (nếu chúng ta sử dụng cả bốn biến chúng ta thực sự có thể thực hiện LDA hoặc MANOVA như Fisher đã làm vào năm 1936)

Tổng số có nghĩa và nhóm có nghĩa là:

μtotal=5.83μsetosa=5.01μversicolor=5.94μvirginica=6.59

Đó là ở dạng mô hình:

model 1: yij=5.83+ϵimodel 2: yij=5.01+[00.931.58]j+ϵi

ϵi2=102.1683

ϵi2=38.9562

Và bảng ANOVA sẽ giống như (và hoàn toàn tính toán sự khác biệt giữa tổng bình phương của nhóm là 63.212 trong bảng với 2 bậc tự do):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F=RSSdifferenceDFdifferenceRSSnewDFnew=63.212238.956147=119.26

tập dữ liệu được sử dụng trong ví dụ:

chiều dài cánh hoa (cm) cho ba loài hoa Iris khác nhau

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1 nhưng định dạng bảng dữ liệu dưới dạng bảng latex là một thực tế tồi tệ !! Không thể sao chép-dán nó ở bất cứ đâu! Nếu bạn thực sự muốn bao gồm dữ liệu, tại sao không định dạng nó dưới dạng khối mã? Nhưng trong trường hợp này, bạn cũng có thể liên kết đến bài viết Wikipedia Fisher Iris có chứa dữ liệu.
amip nói rằng Phục hồi Monica

Ngoài ra, bạn nghĩ gì về vấn đề thuật ngữ mà tôi đã đề cập trong phần bình luận này.stackexchange.com/questions/315979/#comment602611_315979 ?
amip nói phục hồi Monica

1
Tôi không tin rằng thuật ngữ mờ là một vấn đề lớn. Trong tâm trí tôi thực sự không bao giờ coi ANOVA nhiều như một sự so sánh về phương sai trong và giữa các nhóm và luôn luôn đưa ra dự đoán về tinh thần để so sánh hai mô hình. Tôi không tin rằng đó là một vấn đề lớn vì phân phối f, tỷ lệ của hai biến phân phối chi bình phương độc lập, theo một nghĩa nào đó, tỷ lệ của các biến thể. Áp dụng thử nghiệm f để nghiên cứu các mô hình lồng nhau là loại so sánh các biến thể, phân tích các biến thể, do đó ANOVA có vẻ ổn đối với tôi (tôi hiện đang cố gắng tìm kiếm một số tài liệu tham khảo lịch sử).
Sextus Empiricus

Tôi không nói rằng đây là một vấn đề. Nhưng tôi tự hỏi liệu thuật ngữ "ANOVA" chỉ đề cập đến thử nghiệm F so sánh các mô hình lồng nhau chỉ trong R (như tôi đã đề xuất trong nhận xét được liên kết của tôi) hoặc nếu đó là một thuật ngữ được chấp nhận rộng hơn. Tôi đã không kiểm tra sách giáo khoa, vì vậy bằng chứng của tôi chỉ đến từ Wikipedia.
amip nói phục hồi Monica

Trong Phương pháp thống kê năm 1925 của Fisher dành cho công nhân nghiên cứu, khi ông giải thích 'phân tích phương sai', ông bao gồm các ví dụ áp dụng kỹ thuật này cho các đường hồi quy (nhưng không có mô hình lồng nhau).
Sextus Empiricus

1

Việc sử dụng ANOVA so với giữa một số mô hình có nghĩa là kiểm tra xem ít nhất một trong các hệ số được sử dụng trong mô hình có thứ tự cao hơn (và vắng mặt trong mô hình với thứ tự thấp hơn) có khác biệt đáng kể so với không.

Điều đó tương đương với việc nói rằng tổng số dư cho mô hình bậc cao ít hơn đáng kể so với mô hình bậc thấp hơn.

Đó là về hai mô hình kể từ khi phương trình cơ bản được sử dụng là

MSM/MSE

Trong đó MSM là giá trị trung bình của phần dư bình phương của mô hình bậc thấp hơn (trong đó thứ tự thấp nhất là giá trị trung bình của biến mục tiêu, nghĩa là chặn).

( http://www.stat.yale.edu/Cifts/1997-98/101/anovareg.htm )

Bạn có thể đọc các chủ đề tương tự trên CV, như

Làm thế nào để sử dụng anova để so sánh hai mô hình?


IMHO này không trả lời câu hỏi.
amip nói phục hồi Monica

1

Từ những gì tôi đã học được,

Bạn có thể sử dụng các bảng ANOVA để xác định xem các biến giải thích của bạn có thực sự có ảnh hưởng đáng kể đến biến trả lời hay không, và do đó phù hợp với mô hình thích hợp.

x1x2x2

y=β0+β1x1+β2x2+ϵ
y=β0+β1x1+ϵ

x1

Dưới đây là ví dụ đầu ra ANOVA cho dự án tôi đang thực hiện ở R, nơi tôi thử nghiệm hai mô hình (một mô hình có Ngày biến và một mô hình không có Ngày biến):

nhập mô tả hình ảnh ở đây

Như bạn có thể thấy, giá trị p tương ứng từ phép thử F là 0,13, lớn hơn 0,05. Do đó, chúng ta không thể bác bỏ giả thuyết khống rằng Days không có tác dụng với Y. Vì vậy, tôi chọn mô hình 1 trên mô hình 2.


IMHO này không trả lời câu hỏi.
amip nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.