Các biện pháp lặp đi lặp lại ANOVA so với ANOVA yếu tố với yếu tố chủ đề: hiểu về lỗi Lỗi strata và lỗi () trong aov


8

Xem xét các biện pháp lặp lại ANOVA (RM-ANOVA) với một yếu tố bên trong đối tượng Avà một số phép đo cho mỗi đối tượng cho mỗi cấp độ A.

Nó liên quan chặt chẽ với ANOVA hai chiều với hai yếu tố: Asubject. Họ sử dụng phân hủy giống hệt nhau của tổng bình phương thành bốn phần: A, subject, A⋅subject, và residual. Tuy nhiên, ANOVA hai chiều kiểm tra tác động của A bằng cách so sánh SS của A với SS dư, trong khi RM-ANOVA kiểm tra tác động của A bằng cách so sánh SS của A với SS tương tác của chủ thể A .

Tại sao lại có sự khác biệt?

  1. Sự khác biệt này có tự động tuân theo cấu trúc đo lường lặp lại của dữ liệu hay là một số quy ước?
  2. Sự khác biệt này giữa ANOVA hai chiều và RM-ANOVA có tương ứng với việc thử nghiệm hai null khác nhau không? Nếu vậy, chính xác chúng là gì và tại sao chúng ta sẽ sử dụng các null khác nhau trong hai trường hợp này?
  3. Thử nghiệm ANOVA hai chiều có thể được hiểu là thử nghiệm F giữa hai mô hình lồng nhau: mô hình đầy đủ và mô hình không có A. Có thể hiểu RM-ANOVA theo cách tương tự không?

(Nếu chỉ có một phép đo cho mỗi chủ đề cho mỗi cấp độ của A, sau đó sự phân biệt loại biến mất vì A chủ đề và biến thể còn lại không thể được gỡ: Có một chiều biện pháp lặp đi lặp lại ANOVA tương đương với một hai chiều ANOVA? )


Trình diễn

Tôi sẽ sử dụng dữ liệu đồ chơi d2được tạo trong http://dwoll.de/rexrepos/posts/anovaMixed.html . Trang web tương tự hiển thị cú pháp chính xác cho RM-ANOVA.

# Discarding between-subject factors and leaving only one within-subject factor
d = d2[d2$Xb1=='CG' & d2$Xb2 == 'f', c(1,4,6)]

(Xem phiên bản có thể tái tạo tại đây trên pastebin .) Dữ liệu trông như thế:

     id Xw1     Y
1    s1   A  28.6
2    s1   A  96.6
3    s1   A  64.8
4    s1   B 107.5
5    s1   B  77.3
6    s1   B 120.9
7    s1   C 141.2
8    s1   C 124.1
9    s1   C  88.0
10   s2   A  86.7
...

Đây là ANOVA hai chiều: summary(aov(Y ~ Xw1*id, d))

             Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1           2  95274   47637  16.789 3.73e-07 ***
id           19  31359    1650   0.582    0.913    
Xw1:id       38  71151    1872   0.660    0.929    
Residuals   120 340490    2837                 

Đây là RM-ANOVA: summary(aov(Y ~ Xw1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1        2  95274   47637   25.44 9.73e-08 ***
Residuals 38  71151    1872                     

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837            

Lưu ý phân tách SS giống hệt nhau, nhưng kiểm tra ANOVA hai chiều Xw1so với phần dư, trong khi kiểm tra RM-ANOVA Xw1chống lại sự Xw1:idtương tác.

Tại sao?

Câu hỏi này liên quan đến Cách viết thuật ngữ lỗi trong các biện pháp lặp lại ANOVA trong R: Error (chủ đề) so với Error (chủ đề / thời gian) . Nếu chúng ta thử sử dụng Error(id)thay vì Error(id/Xw1)trong ví dụ trên, thì Xw1sẽ được kiểm tra chống lại Xw1:idsự tương tác gộp lại với biến thể dư.

. / cốt truyện / biến chủ đề id.)


Chủ đề liên quan: r.789695.n4.nabble.com/AOV-and-Error-td865845.html - nhưng không có câu trả lời thực sự ở đó.
amip

Được rồi, tôi đọc lại @ giấy JakeWestfall của jakewestfall.org/publications/JWK.pdf và nhận ra rằng toàn bộ vấn đề nắm để RM-ANOVA điều trị subjecthiệu quả (và tất cả các tương tác của nó!) Là ngẫu nhiên, trong khi 2-way ANOVA xử lý nó như đã sửa. Tôi phải suy nghĩ nhiều hơn về nó để tìm ra tất cả các chi tiết.
amip

Đối với điểm (2), giả thuyết null là chính xác điều gì làm cho tỷ lệ bình phương trung bình dự kiến ​​của hai tổng bình phương tương ứng bằng một và tham số không trung bình tương ứng với cả hai tổng bình phương bằng 0. Điều này sao cho giá trị cho thống kê là tính toán được. Hiện tại tôi vẫn chưa rõ lý do tại sao chúng ta có thể hoàn thành cả 3 mục tiêu này trong các null mà chúng ta thường thấy trong ANOVA, nhưng có vẻ như chúng ta chỉ cần tập trung vào tỷ lệ của EMS khi các hiệu ứng là ngẫu nhiên và tham số phi tập trung SS tử số khi hiệu ứng (tử số) được cố định. FpF
user795305

Những bình luận này liên quan đến định lý của cochran ( en.wikipedia.org/wiki/Cochran%27s_theorem ). (Nhân tiện, cuốn sách tôi sử dụng làm tài liệu tham khảo ANOVA gọi đây là "Bổ đề của Bhat".)
user795305

Câu hỏi tương tự ở đây, Hiểu về cốt truyện bị chia tách , nhưng vẫn chưa có câu trả lời tuyệt vời nào
Aaron rời khỏi Stack Overflow

Câu trả lời:


2

... ANOVA hai chiều kiểm tra tác động của A bằng cách so sánh SS của A với SS dư, trong khi RM-ANOVA kiểm tra tác động của A bằng cách so sánh SS của A với SS tương tác Asubject.

1) Sự khác biệt này có tự động tuân theo cấu trúc đo lường lặp lại của dữ liệu hay đó là một số quy ước?

Nó theo cấu trúc đo lặp lại của dữ liệu. Nguyên tắc cơ bản của phân tích phương sai là chúng ta so sánh sự khác biệt giữa các mức độ điều trị với sự khác biệt giữa các đơn vị được điều trị. Điều làm cho trường hợp đo lặp đi lặp lại có phần khó khăn là ước tính biến thể thứ hai này.

Trong trường hợp đơn giản nhất này, điều chúng tôi quan tâm là sự khác biệt giữa các cấp độ A. Vậy chúng tôi đã đo được bao nhiêu đơn vị đó? Đó là số lượng đối tượng, không phải số lượng quan sát. Đó là, mỗi đối tượng cung cấp cho chúng ta một thông tin độc lập bổ sung về sự khác biệt, không phải mỗi quan sát. Thêm nhiều biện pháp lặp đi lặp lại làm tăng tính chính xác của thông tin của chúng tôi về từng đối tượng, nhưng không cung cấp cho chúng tôi nhiều đối tượng hơn.

Điều mà RM-Anova làm khi sử dụng tương tác chủ thể A làm thuật ngữ lỗi là sử dụng chính xác biến thể chênh lệch giữa các cấp độ A giữa các đối tượng làm biến thể để kiểm tra hiệu ứng cấp độ A. Thay vào đó, sử dụng lỗi quan sát sử dụng biến thể trong các biện pháp lặp lại trên từng cá nhân, điều này không đúng.

Hãy xem xét một trường hợp bạn lấy ngày càng nhiều dữ liệu chỉ trên một vài cá nhân. Nếu sử dụng lỗi mức độ quan sát, cuối cùng bạn sẽ đạt được ý nghĩa thống kê, mặc dù bạn chỉ có một vài cá nhân. Bạn cần nhiều cá nhân hơn, không có nhiều dữ liệu về họ, để thực sự tăng sức mạnh.

2) Sự khác biệt này giữa ANOVA hai chiều và RM-ANOVA có tương ứng với việc thử nghiệm hai null khác nhau không? Nếu vậy, chính xác chúng là gì và tại sao chúng ta sẽ sử dụng các null khác nhau trong hai trường hợp này?

Không, cùng một giả thuyết null. Điều khác biệt là cách chúng tôi ước tính thống kê kiểm tra và phân phối null của nó.

3) Thử nghiệm ANOVA hai chiều có thể được hiểu là thử nghiệm F giữa hai mô hình lồng nhau: mô hình đầy đủ và mô hình không có A. Có thể hiểu RM-ANOVA theo cách tương tự không?

Có, nhưng có lẽ không phải theo cách bạn đang hy vọng. Như bạn thấy trong đầu ra từ aov, một cách nghĩ về các loại mô hình này là chúng thực sự là một vài mô hình trong một, với một mô hình cho mỗi cấp độ.

Người ta có thể phù hợp với các mô hình cho các cấp cao hơn bằng cách lấy trung bình dữ liệu trên các cấp thấp hơn. Đó là, một bài kiểm tra RM-Anova cho A tương đương với một Anova tiêu chuẩn trên dữ liệu trung bình. Sau đó, người ta có thể so sánh các mô hình theo cách thông thường.

> library(plyr)
> d2 <- ddply(d, ~Xw1 + id, summarize, Y=mean(Y))
> a1 <- aov(Y ~ id, d2)
> a2 <- aov(Y ~ Xw1+id, d2)
> anova(a1, a2)
Analysis of Variance Table

Model 1: Y ~ id
Model 2: Y ~ Xw1 + id
  Res.Df   RSS Df Sum of Sq      F    Pr(>F)    
1     40 55475                                  
2     38 23717  2     31758 25.442 9.734e-08 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ngoài ra, người ta có thể phù hợp aovvới toàn bộ dữ liệu nhưng không có điều khoản quan tâm, sau đó so sánh mức độ phù hợp với đầy đủ aovvới điều khoản quan tâm, nhưng sau đó để so sánh các mô hình bạn cần chọn mức độ của mô hình bạn đã chọn đã thay đổi (ở đây là id:Xw1mức) và sau đó bạn có thể so sánh hai mô hình đó.

> summary(aov(Y ~ 1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 40 166426    4161               

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837               
> (F <- ((166426 - 71151)/2) / (71151/38))
[1] 25.44202
> pf(F, 2, 38, lower=FALSE)
[1] 9.732778e-08

(+1) Cảm ơn bạn đã dành thời gian để viết bài này! Đây là một viễn cảnh thú vị cho phép chúng ta có được một số trực giác về lý do tại sao việc so sánh với tổng bình phương trong trường hợp đo lặp lại là điều tự nhiên. Tuy nhiên, dường như thất bại trong việc làm sáng tỏ các chi tiết của thử nghiệm, vì bạn đã sai (theo các lập luận trong phản hồi của tôi) cho rằng các giả thuyết null giống nhau. Đoạn cuối của câu trả lời của tôi viết những gì tôi rút ra các giả thuyết null. Xin vui lòng cho tôi biết nếu bạn nghĩ rằng tôi đang nhầm lẫn!
dùng795305

Tôi nghĩ rằng chúng ta cần phân biệt giữa những gì đang được thử nghiệm và đâu là giả định của giả thuyết null (đó là một phần của ý tôi khi tôi nói phân phối null là khác nhau). Σ ^ 2_ {id Xw1} = 0 bạn không thực sự được kiểm tra, bạn có thể có dữ liệu hoàn toàn không đúng nhưng nếu X_ {w1j} chính xác bằng 0 cho tất cả j thì bạn sẽ không từ chối vô giá trị.
Aaron rời Stack Overflow

1
Câu hỏi là, bạn kết luận điều gì khi bạn từ chối null? Trong cả hai trường hợp, bạn đang kết luận rằng bạn có bằng chứng cho thấy ý nghĩa của nhóm là khác nhau. Bạn không kết luận rằng một trong hai nhóm có nghĩa là khác nhau HOẶC phương sai là lớn. Đó là, giả thuyết null trong cả hai trường hợp chỉ đơn giản là tất cả các nhóm có nghĩa là giống nhau. Những thay đổi là thống kê kiểm tra mà chúng tôi sử dụng để kiểm tra điều đó và phân phối thống kê kiểm tra đó.
Aaron rời Stack Overflow

1
Tôi nhận ra tôi bối rối bởi toàn bộ lý luận của bạn. Một giả thuyết null không xuất phát, nó chỉ đơn giản là apriori, và sau đó người ta chọn một thống kê kiểm tra và xác định phân phối của nó theo null. Trong cả hai trường hợp, giả thuyết null chỉ đơn giản là tất cả các nhóm có nghĩa là bằng nhau.
Aaron rời Stack Overflow

1
@Aaron Trong trò chuyện, amip vui lòng chỉ ra rằng tôi dường như đã hiểu nhầm câu trả lời của bạn cho câu hỏi 2. Tôi giải thích cho bạn rằng trong trường hợp các biện pháp lặp đi lặp lại, các giả thuyết null tương ứng với thống kê kiểm tra với MSE bằng denom hoặc MS_inter trong mệnh giá giống nhau. (Thật vậy, đoạn cuối cùng của tôi mà tôi đã chỉ cho bạn là trong bối cảnh của các biện pháp lặp đi lặp lại.) Tuy nhiên, dường như bây giờ đó không phải là điều bạn đang nói. Lỗi của tôi! amip và tôi đã xóa các bình luận của chúng tôi để giữ điều này khỏi những độc giả tương lai gây hiểu lầm.
user795305

2

Ghi chú này phụ thuộc vào kết quả có trong Mô hình tuyến tính của Moser: Cách tiếp cận mô hình trung bình . Tôi sẽ trích dẫn một số kết quả từ cuốn sách này trong phần tiếp theo. Khi tôi thấy câu hỏi của bạn, tôi bắt đầu xem qua cuốn sách: ghi chú này chỉ là cách suy nghĩ của tôi được sắp xếp sau đó.

Hãy để là phản ứng, với μ chứa những tác động cố định và Σ chứa các hiệu ứng ngẫu nhiên.yNn(μ,Σ)μΣ

Lấy là tổng các bình phương tương ứng với mỗi số hạng (hiệp phương sai và tương tác) trong mô hình. Lưu ý rằng các tổng bình phương này là bất biến cho dù các điều khoản là cố định hay ngẫu nhiên. Giả sử rằng mỗi A i là đối xứng và không có giá trị, điều này sẽ đúng trong hầu hết các mô hình quan tâm.yTAiyAi

Khi cho rằng trong đó số tiền số tiền của hình vuông tương ứng với một phân hủy thành subspaces trực giao kể từ khi chúng tôi đã đảm nhận một i là máy chiếu, và Σ = Σ i c i A i , bởi lý Cochran của ( Bổ đề 3.4.1), y T Một i y ~ c i χ 2 d i ( μ T Một i μ / c i ) , cho d

I=iAi,
Ai
Σ=iciAi,
yTAiyciχdi2(μTAiμ/ci),
y T A j y độc lập với y T A k y với j k .di=tr(Ai)yTAjyyTAkyjk

Thuật ngữ

F~=yTAjy/djyTAky/dkcjχdj2(μTAjμ/cj)/djckχdk2(μTAkμ/ck)/dk
F
(1)cjck=1,(2)μTAjμ=0,(3)μTAkμ=0, and 
pF~ciμF~FF~F

EMSithyTAiy

EMSTôi: =1tr(MộtTôi)E[yTMộtTôiy]= =tr(MộtTôiΣ)+μTMộtTôiμtr(MộtTôi)= =cTôi+μTMộtTôiμtr(MộtTôi),
tr(MộtTôiΣ)= =cTôitr(MộtTôi)
EMSjEMSk= =cj+μTMộtjμtr(Mộtj)ck+μTMộtkμtr(Mộtk)= =1
(1)(2)(3)EMSF

(1),(2)(3)jcj/ck=1yTAjy=0k(1),(2)(3)k

μΣ

μΣk


yijk=μ0+idi+Xw1j+idXw1ij+R(idXw1)k(ij),
iidk

y= =(y111,y112,y113,y121,Giáo dụcy20,3,3)J¯Rm×m1mC= =Tôi-J¯Cx22=i(xix¯)2x

Aiμ0

SS(μ0)= =n(y¯)2= =(J¯J¯J¯)y22= =yT(J¯J¯J¯)y,
J¯R20×20R3×3R3×3id
SS(id)=ijk(y¯iy¯)2=(CJ¯J¯)y22=yT(CJ¯J¯)y.
SS(id)idAXw1=J¯CJ¯AidXw1=CCJ¯MộtR()= =TôiTôiC

aovSS(R(Tôid*Xw1))= =yTMộtR()y

mY <- c()
for(j in 1:(nrow(d)/3)) {
  mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares

Tôid

E[yTôijk]= =μTôij= =μ0+TôidTôi+Xw1jk+Tôid*Xw1Tôij
R(Tôid*Xw1)k(Tôij)~TôiTôidN(0,σ2)
y~N(μ,Σ)
μ= =E[y]= =(μ11,μ12,Giáo dục,μ20,3)13Σ= =σ2(TôiTôiTôi)

5Một

SS(Xw1)= =yTMộtXw1y~σ2χ(19)(1)(1)2(μTMộtXw1μ/σ2)
SS(R(Tôid*Xw1))= =yTMộtR()y~σ2χ(20)(3)(2)2(μTMộtR()μ/σ2)

(1),(2),(3)(1)μTAR()μ=0μAR()(3)(2)0=μTAXw1μ=ijk(μijμ¯i)2μij=μ¯ii,jXw1j=0idXw1ij=0i,j

id(1)

RError()id/Xw1 = id + id:Xw1idErrorAR()+AidXw1AR()


idididXw1

Σ=(a)σid2(IJJ)+σidXw12(ICJ)+σR()2(III)=σid2(3)(3)(Aμ0+Aid)+σidXw12(3)(AXw1+AidXw1)+σR()2(Aμ0+Aid+AXw1+AidXw1+AR())=((3)(3)σid2+σR()2)Aμ0+((3)(3)σid2+σR()2)Aid+((3)σidXw12+σR()2)AXw1+((3)σidXw12+σR()2)AidXw1+σR()2AR(),
JidXw1Xw1ICJ

idXw1E[yijk]=μj=μ0+Xw1jμ=1(μ1,μ2,μ3)1

(1)

cXw1cidXw1=(3)σidXw12+σR()2(3)σidXw12+σR()2=1,
cXw1cR()= =(3)σTôid*Xw12+σR()2σR()21.
(3)μTMộtXw1*Tôidμ= =0μTMộtR()μ= =0(2)
μTAXw1μ=AXw1μ22=(J¯CJ¯)(1(μ1,μ2μ3)1)22=(20)(3)C(μ1,μ2μ3)22=(20)(3)j(Xw1j)2.

R(idXw1)(1)(2)(1)(2)

Xw1j=0j σidXw12=0Xw1j=0j


+1. Wow, cảm ơn rất nhiều. Tôi sẽ mất một thời gian để tiêu hóa câu trả lời này. Tôi không rành lắm về lý thuyết toán học về kiểm định giả thuyết trong các mô hình tuyến tính, vì vậy điều này hơi khó hiểu. Tôi có thể quay lại với bạn với một số câu hỏi trong những ngày tiếp theo. Tôi đã mong đợi nhận được câu trả lời theo kiểu ví dụ trên trang 2-3 của bài báo này jakewestfall.org/publications/JWK.pdf , trong đó các ô vuông trung bình dự kiến ​​được tính trong một số tình huống cố định và ngẫu nhiên từ đó. Có vẻ như bạn đang nói về điều tương tự, nhưng trang trọng hơn.
amip

Tôi đã bao gồm một ví dụ. (Họ có thể mất khá nhiều thời gian để viết ra!) Tôi nghĩ rằng phải mất một thời gian để thoải mái với các thao tác sản phẩm kronecker, nhưng, sau đó, điều này dễ hiểu hơn. Ngoài ra, tôi tiếp tục tìm lỗi chính tả trong câu trả lời. Xin vui lòng cho tôi biết nếu bạn nghĩ rằng có bất kỳ!
dùng795305

1
Whew, đó là rất nhiều toán học! Câu hỏi có vẻ khái niệm hơn nhiều đối với tôi, tôi sẽ xem liệu tôi có thể tìm thấy thời gian để thêm câu trả lời bằng lời không.
Aaron rời Stack Overflow

1
F
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.