Làm thế nào để giải thích loại I, loại II và loại III ANOVA và MANOVA?


45

Câu hỏi chính của tôi là làm thế nào để giải thích đầu ra (hệ số, F, P) khi tiến hành ANOVA loại I (tuần tự)?

Vấn đề nghiên cứu cụ thể của tôi phức tạp hơn một chút, vì vậy tôi sẽ chia ví dụ của mình thành nhiều phần. Đầu tiên, nếu tôi quan tâm đến ảnh hưởng của mật độ nhện (X1) đối với sự phát triển của cây (Y1) và tôi đã trồng cây con trong vỏ bọc và mật độ nhện thao tác, thì tôi có thể phân tích dữ liệu bằng ANOVA đơn giản hoặc hồi quy tuyến tính. Sau đó, sẽ không có vấn đề gì nếu tôi sử dụng Sum I, II hoặc III Sum of Squares (SS) cho ANOVA của tôi. Trong trường hợp của tôi, tôi có 4 lần lặp lại 5 mức mật độ, vì vậy tôi có thể sử dụng mật độ như một yếu tố hoặc như một biến liên tục. Trong trường hợp này, tôi thích giải thích nó như một biến độc lập (dự đoán) liên tục. Trong RI có thể chạy như sau:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

Chạy chức năng anova sẽ có ý nghĩa để so sánh sau này hy vọng, vì vậy xin vui lòng bỏ qua sự kỳ lạ của nó ở đây. Đầu ra là:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

Bây giờ, giả sử tôi nghi ngờ rằng mức độ khởi đầu của nitơ vô cơ trong đất, mà tôi không thể kiểm soát, cũng có thể ảnh hưởng đáng kể đến sự phát triển của cây. Tôi không đặc biệt quan tâm đến hiệu ứng này nhưng có khả năng tính đến sự thay đổi mà nó gây ra. Thực sự, mối quan tâm hàng đầu của tôi là ảnh hưởng của mật độ nhện (giả thuyết: mật độ nhện tăng làm tăng sự phát triển của cây - có lẽ thông qua việc giảm côn trùng ăn cỏ nhưng tôi chỉ thử nghiệm tác dụng chứ không phải cơ chế). Tôi có thể thêm tác dụng của N vô cơ vào phân tích của mình.

Vì câu hỏi của tôi, hãy giả vờ rằng tôi kiểm tra mật độ tương tác * vô cơ và nó không đáng kể để tôi loại bỏ nó khỏi phân tích và chạy các hiệu ứng chính sau:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

Bây giờ, điều này tạo ra sự khác biệt cho dù tôi sử dụng SS loại I hay loại II (tôi biết một số người phản đối các thuật ngữ Loại I & II, v.v. nhưng với sự phổ biến của SAS thì dễ sử dụng). R anova {stats} sử dụng Loại I theo mặc định. Tôi có thể tính toán mật độ SS, F và P loại II bằng cách đảo ngược thứ tự các hiệu ứng chính của mình hoặc tôi có thể sử dụng gói "xe hơi" của Tiến sĩ John Fox (đồng hành với hồi quy được áp dụng). Tôi thích phương pháp sau vì nó dễ dàng hơn cho các vấn đề phức tạp hơn.

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

Sự hiểu biết của tôi là các giả thuyết loại II sẽ là "Không có hiệu ứng tuyến tính của x1 trên y1 do hiệu ứng của (giữ hằng số?) X2" và tương tự đối với x2 đã cho x1. Tôi đoán đây là nơi tôi bị lẫn lộn. Giả thuyết đang được ANOVA thử nghiệm bằng phương pháp loại I (tuần tự) ở trên so với giả thuyết sử dụng phương pháp loại II là gì?

Trong thực tế, dữ liệu của tôi phức tạp hơn một chút vì tôi đã đo được nhiều số liệu về sự tăng trưởng của thực vật cũng như động lực dinh dưỡng và sự phân hủy rác. Phân tích thực tế của tôi là một cái gì đó như:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

Câu trả lời:


71

Những gì bạn đang gọi loại II SS, tôi sẽ gọi loại III SS. Hãy tưởng tượng rằng chỉ có hai yếu tố A và B (và chúng ta sẽ đưa vào tương tác A * B sau để phân biệt SS loại II). Hơn nữa, hãy tưởng tượng rằng có bốn khác nhau trong bốn ô (ví dụ: = 11, = 9, = 9 và = 11). Bây giờ hai yếu tố của bạn có tương quan với nhau. (Hãy tự thử, tạo 2 cột 1 và 0 và tương quan với chúng, ; nb không quan trọng nếu là 'đáng kể', đây là toàn bộ dân số mà bạn quan tâm). Vấn đề với các yếu tố của bạn có tương quan là có các tổng bình phương có liên quan đến cả hain 11 n 12 n 21 n 22 r = .1 rviết sai rồiviết sai rồi11viết sai rồi12viết sai rồi21viết sai rồi22r= =.1rA và B. Khi tính toán ANOVA (hoặc bất kỳ hồi quy tuyến tính nào khác), chúng tôi muốn phân vùng các tổng bình phương. Một phân vùng đặt tất cả các tổng bình phương thành một và chỉ mộtcủa một số tập con. (Ví dụ: chúng tôi có thể muốn chia SS thành A, B và lỗi.) Tuy nhiên, do các yếu tố của bạn (vẫn chỉ có A và B ở đây) không trực giao nên không có phân vùng duy nhất của các SS này. Trên thực tế, có thể có rất nhiều phân vùng và nếu bạn sẵn sàng chia SS của mình thành các phân số (ví dụ: "Tôi sẽ đặt 0,5 vào thùng này và 0,5 vào cái đó"), có các phân vùng vô hạn. Một cách để hình dung điều này là tưởng tượng biểu tượng MasterCard: Hình chữ nhật đại diện cho tổng SS và mỗi vòng tròn đại diện cho SS có thể quy cho yếu tố đó, nhưng chú ý sự chồng chéo giữa các vòng tròn ở trung tâm, những SS đó có thể được đưa ra để một trong hai vòng tròn.

nhập mô tả hình ảnh ở đây

Câu hỏi là: Làm thế nào để chúng ta chọn phân vùng 'bên phải' trong số tất cả các khả năng này? Hãy đưa sự tương tác trở lại và thảo luận về một số khả năng:

Loại I SS:

  • SS (A)
  • SS (B | A)
  • SS (A * B | A, B)

SS loại II:

  • SS (A | B)
  • SS (B | A)
  • SS (A * B | A, B)

SS loại III:

  • SS (A | B, A * B)
  • SS (B | A, A * B)
  • SS (A * B | A, B)

Lưu ý cách những khả năng khác nhau này hoạt động. Chỉ SS loại I thực sự sử dụng các SS đó trong phần chồng chéo giữa các vòng tròn trong biểu tượng MasterCard. Đó là, các SS có thể được gán cho A hoặc B, đang thực sự do một trong số họ khi bạn sử dụng loại I SS (cụ thể, là bạn đã nhập vào các mô hình đầu tiên). Trong cả hai cách tiếp cận khác, SS chồng chéo không được sử dụng ở tất cả . Do đó, SS loại I cung cấp cho A tất cả các SS được quy cho A (bao gồm cả những SS cũng có thể được quy cho nơi khác), sau đó cung cấp cho B tất cả các SS còn lại có thể quy cho B, sau đó cung cấp cho tương tác A * B của phần còn lạiSS có thể quy cho A * B và để lại phần thừa không thể quy cho bất kỳ điều gì cho cụm từ lỗi.

Loại III SS chỉ cung cấp cho một những SS mà là duy nhất do A, tương tự như vậy nó chỉ mang lại cho B và sự tương tác với những SS mà là duy nhất do cho họ. Thuật ngữ lỗi chỉ nhận các SS không thể được quy cho bất kỳ yếu tố nào. Do đó, SS 'mơ hồ' có thể được quy cho 2 hoặc nhiều khả năng không được sử dụng. Nếu bạn tính tổng SS loại III trong bảng ANOVA, bạn sẽ thấy rằng chúng không bằng tổng SS. Nói cách khác, phân tích này phải sai, nhưng sai lầm theo một cách bảo thủ nhận thức luận. Nhiều nhà thống kê thấy cách tiếp cận này rất nghiêm trọng, tuy nhiên các cơ quan tài trợ của chính phủ (tôi tin rằng FDA) yêu cầu sử dụng chúng.

Cách tiếp cận loại II nhằm mục đích nắm bắt những gì có thể có giá trị về ý tưởng đằng sau loại III, nhưng giảm thiểu sự thái quá của nó. Cụ thể, nó chỉ điều chỉnh SS cho A và B cho nhau chứ không phải tương tác. Tuy nhiên, trong thực tế SS loại II về cơ bản không bao giờ được sử dụng. Bạn sẽ cần phải biết về tất cả những điều này và đủ hiểu biết với phần mềm của bạn để có được những ước tính này, và các nhà phân tích thường nghĩ rằng đây là một sự cố.

Có nhiều loại SS hơn (tôi tin IV và V). Họ đã được đề nghị vào cuối những năm 60 để đối phó với một số tình huống nhất định, nhưng sau đó đã cho thấy rằng họ không làm những gì đã nghĩ. Vì vậy, tại thời điểm này chúng chỉ là một chú thích lịch sử.

Đối với những câu hỏi mà những câu hỏi này đang trả lời, về cơ bản bạn đã có quyền đó trong câu hỏi của bạn:

  • Các ước tính sử dụng SS loại I cho bạn biết mức độ biến thiên của Y có thể được giải thích bằng A, mức độ biến thiên còn lại có thể được giải thích bởi B, mức độ biến thiên còn lại có thể được giải thích bằng cách tương tác, v.v. theo thứ tự .
  • Các ước tính dựa trên SS loại III cho bạn biết mức độ biến thiên còn lại trong Y có thể được tính bởi A sau khi đã tính toán mọi thứ khác và mức độ biến động còn lại trong Y có thể được tính bởi B sau khi đã tính cho mọi thứ khác cũng như, và như vậy. (Lưu ý rằng cả hai đi trước và cuối cùng đồng thời; nếu điều này có ý nghĩa với bạn và phản ánh chính xác câu hỏi nghiên cứu của bạn, thì hãy sử dụng loại III SS.)

2
cảm ơn bạn đã trả lời rất hữu ích Một lĩnh vực khác mà tôi bị nhầm lẫn là nếu "Ước tính sử dụng loại I SS cho bạn biết mức độ biến thiên của Y có thể được giải thích bằng A, thì mức độ biến thiên còn lại có thể được giải thích bởi B, bao nhiêu phần còn lại sự thay đổi có thể được giải thích bằng sự tương tác, và theo thứ tự, "tại sao các số liệu thống kê liên kết với A thay đổi khi các biến bổ sung được thêm vào? Có phải vì các bài kiểm tra dựa trên SS (A) / SS (lỗi) và lỗi là một hàm của tất cả các điều khoản trong mô hình? Tôi có nghĩ về điều này một cách chính xác?
djhocking

1
Theo "số liệu thống kê liên quan đến A", tôi hiểu bạn có nghĩa là giá trị F và p cho tác động chính của A. Giá trị F cho A là tỷ lệ của Bình phương trung bình cho A (nghĩa là SSA / dfA) với Lỗi MS. Khi bạn thêm nhiều yếu tố, SS được lấy từ thuật ngữ lỗi và được cung cấp cho các yếu tố đó. Nói chung, điều này có nghĩa là lỗi MS giảm, và do đó tỷ lệ tăng lên. Kết quả là, giá trị F cho A trở nên lớn hơn và giá trị p trở nên nhỏ hơn. Bởi vì mức độ tự do cũng thay đổi, nó có thể phức tạp hơn thế này, nhưng đó là ý chính của nó.
gung - Tái lập Monica

Rất tiếc tôi có nghĩa là MS (A) / MSE cho thống kê F. Dù sao, câu trả lời của bạn là hoàn hảo, một lần nữa cảm ơn sự giúp đỡ của bạn!
djhocking

Tôi tò mò, về các chi tiết diễn giải khi sử dụng loại I. Trong trường hợp của tôi, mật độ là biến quan tâm duy nhất của tôi và là biến duy nhất tôi thử nghiệm. Tuy nhiên, thật không may, mật độ không đáng kể hoặc sau khi tính đến hai biến quan tâm khác của tôi (Npredators, vô cơN ở loại II hoặc III). Nhưng vì vô cơN rõ ràng giải thích phần lớn sự biến đổi trong một số biến phụ thuộc khi tôi thêm nó vào biến thứ 3, nó làm cho 2 biến số còn lại rất có ý nghĩa. Do đó, mật độ có thực sự có ảnh hưởng đáng kể đến Y? Điều này có hợp lý không?
djhocking

2
@JonBonJovi, tương tự MasterCard chỉ có 2 yếu tố. Nếu bạn muốn 2 yếu tố cộng với một sự tương tác, thì bạn sẽ cần 3 khu vực chồng chéo lên nhau. Chắc chắn có thể vẽ sơ đồ Euler với 3 vùng, nhưng tôi chỉ sử dụng biểu tượng MasterCard để đơn giản. Để tương tác, hãy tưởng tượng một vòng tròn thứ 3 chồng lên 2 vòng đầu tiên (ví dụ: nó có thể được căn giữa từ phải sang trái, nhưng chủ yếu ở trên các vòng tròn khác); sau đó tất cả các vòng tròn A (SS) sẽ chuyển đến A, mọi thứ trong B không trùng lặp A sẽ đến B và mọi thứ trong A B không trùng nhau * A hoặc B sẽ tương tác.
gung - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.