Thứ tự của các biến trong ANOVA có vấn đề không?


20

Tôi có đúng không khi hiểu rằng thứ tự các biến được chỉ định trong ANOVA đa yếu tố tạo ra sự khác biệt nhưng thứ tự đó không quan trọng khi thực hiện hồi quy tuyến tính nhiều?

Vì vậy, giả sử một kết quả như mất máu đo được y và hai biến phân loại

  1. phương pháp adenoidectomy a ,
  2. phương pháp cắt amidan b .

Mô hình y~a+bnày khác với mô hình y~b+a(hoặc do đó, việc triển khai trong R của tôi dường như chỉ ra).

Tôi có đúng không khi hiểu rằng thuật ngữ ở đây là ANOVA là một mô hình phân cấp vì nó đầu tiên thuộc tính có nhiều phương sai nhất có thể đối với yếu tố thứ nhất trước khi cố gắng gán phương sai dư cho yếu tố thứ hai?

Trong ví dụ trên, hệ thống phân cấp có ý nghĩa bởi vì tôi luôn luôn thực hiện phẫu thuật cắt bỏ trước khi thực hiện phẫu thuật cắt amidan nhưng điều gì sẽ xảy ra nếu một biến có hai biến không có thứ tự vốn có?


12
Đặt hàng các vấn đề trong ANOVAs với thiết kế không cân bằng, nghĩa là khi có kích thước ô không đồng đều. Chủ đề này thường được xử lý theo tiêu đề "các loại tổng bình phương". Xem epm.sagepub.com/content/38/3/621.full.pdf+html và chl của câu trả lời cho stats.stackexchange.com/questions/11209/...
caracal

1
Xem thêm câu trả lời của gung trong stats.stackexchange.com/questions/20452 .
amip nói phục hồi Monica

Tôi vừa mở rộng một cuộc thảo luận cũ hơn của tôi với hy vọng nó sẽ làm sáng tỏ vấn đề này. Nó chắc chắn vẫn cần công việc, và có thể ai đó có can đảm để giúp chỉnh sửa nó. Đây là những gì tôi có cho đến nay: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htmlm Có thể có một điều thú vị với tiềm năng được trích ra cho một số câu trả lời rõ ràng cho câu hỏi đó ở đây.
Gottfried Helms

Câu trả lời:


17

Câu hỏi này rõ ràng xuất phát từ một nghiên cứu với thiết kế hai chiều không cân bằng, được phân tích trong R với aov()chức năng; trang này cung cấp một ví dụ gần đây và chi tiết hơn về vấn đề này.

Câu trả lời chung cho câu hỏi này, cũng như rất nhiều, là: "Nó phụ thuộc." Ở đây nó phụ thuộc vào việc thiết kế có cân bằng hay không, và nếu không, hương vị của ANOVA được chọn.

Đầu tiên, nó phụ thuộc vào việc thiết kế có cân bằng hay không. Trong thế giới tốt nhất trong tất cả các thế giới có thể, với số lượng trường hợp bằng nhau trong tất cả các ô của thiết kế giai thừa, sẽ không có sự khác biệt do thứ tự nhập các yếu tố vào mô hình, bất kể ANOVA được thực hiện như thế nào. , rõ ràng từ một đoàn hệ lâm sàng hồi cứu, dường như đến từ một thế giới thực, nơi không tìm thấy sự cân bằng như vậy. Vì vậy, thứ tự có thể có vấn đề.

Thứ hai, nó phụ thuộc vào cách ANOVA được thực hiện, đây là một vấn đề gây tranh cãi. Các loại ANOVA cho các thiết kế không cân bằng khác nhau theo thứ tự đánh giá các hiệu ứng và tương tác chính. Đánh giá các tương tác là nền tảng của ANOVA hai chiều và bậc cao hơn, do đó, có tranh chấp về cách tốt nhất để tiến hành. Xem trang Xác thực chéo này để biết một lời giải thích và thảo luận. Xem Chi tiết và Cảnh báo cho chức năng Anova()(có chữ "A") trong hướng dẫn sử dụng cargói để có chế độ xem khác.

Thứ tự của các yếu tố không thành vấn đề trong các thiết kế không cân bằng theo mặc định aov()trong R, sử dụng cái được gọi là thử nghiệm loại I. Đây là các phân bổ tuần tự của phương sai cho các yếu tố theo thứ tự nhập vào mô hình, như câu hỏi hiện tại được hình dung. Thứ tự không quan trọng với các thử nghiệm loại II hoặc loại III được cung cấp bởi Anova()chức năng trong cargói trong R. Tuy nhiên, các lựa chọn thay thế này có những nhược điểm tiềm năng riêng được ghi nhận trong các liên kết trên.

Cuối cùng, hãy xem xét mối quan hệ với nhiều hồi quy tuyến tính như lm()trong R, về cơ bản là cùng một kiểu mô hình nếu bạn bao gồm các thuật ngữ tương tác. Thứ tự nhập của các biến lm()không quan trọng về các hệ số hồi quy và giá trị p được báo cáo bởi summary(lm()), trong đó một yếu tố phân loại cấp k được mã hóa là các biến giả nhị phân (k-1) và hệ số hồi quy được báo cáo cho mỗi hình nộm .

Tuy nhiên, có thể bọc lm()đầu ra bằng anova()(chữ thường "a," từ statsgói R ) hoặc Anova()tóm tắt ảnh hưởng của từng yếu tố trên tất cả các cấp độ của nó, như người ta mong đợi trong ANOVA cổ điển. Sau đó, thứ tự của các yếu tố sẽ quan trọng anova()như đối với aov(), và sẽ không quan trọng với Anova(). Tương tự, các tranh chấp về loại ANOVA sẽ sử dụng sẽ trở lại. Vì vậy, sẽ không an toàn khi giả định sự độc lập theo thứ tự của yếu tố nhập với tất cả các lm()mô hình sử dụng xuôi dòng .


* Có số lượng quan sát bằng nhau trong tất cả các ô là đủ nhưng, theo tôi hiểu, không cần thiết cho thứ tự các yếu tố không liên quan. Các loại cân bằng ít đòi hỏi hơn có thể cho phép độc lập trật tự.


Thật vậy, có, dữ liệu quan sát đó không cân bằng, rất mất cân bằng.
Farrel

0

Thuật ngữ mô hình phân cấp đề cập đến cấu trúc giữa các yếu tố. Ví dụ, một nghiên cứu đa trung tâm được phân cấp: Bạn có các bệnh nhân được lồng trong các bệnh viện điều trị cho họ. Mỗi bệnh viện điều trị cho bệnh nhân bằng giả dược và verum, nhưng việc nhận từng bệnh nhân ở bệnh viện A hoặc B hơi khác nhau do một số ảnh hưởng chung của bệnh viện đối với tất cả bệnh nhân của họ (thậm chí có thể là hiệu ứng tương tác với tác nhân thực nghiệm). Vì vậy, nó được gọi là hiệu ứng phân cấp.

Bây giờ các phương pháp cắt bỏ tử cung của bạn có thể được phân cấp: Có hợp lý không khi một phương pháp cắt amidan nào đó hơi khác nhau (về bản thân, chưa có hiệu quả, bởi vì đó là những gì bạn sẽ ước tính và kiểm tra) tùy thuộc vào phương pháp cắt bỏ từ tính được sử dụng trước đó bệnh nhân? Nếu có, bạn nên chỉ định nó trong mô hình của bạn.

Quan sát của bạn rằng y ~ a + b có thể khác với y ~ b + a chỉ ra rằng có điều gì đó không đúng. Hiệu ứng cộng gộp đi lại, do đó không nên có sự khác biệt (ngoài sự khác biệt nhỏ về số). Không có lý và cũng không mong muốn rằng hiệu quả của các phương pháp phẫu thuật có thể phụ thuộc vào thứ tự mà sau đó nhà thống kê chỉ định các hiệu ứng. Vì vậy, bạn có thể chọn cách tiếp cận sai để cung cấp Rdữ liệu.


1
Tôi không chắc chắn tôi làm theo đoạn cuối. Trong ANOVA yếu tố không cân bằng, giá trị p cho mỗi yếu tố được tính toán thông qua tổng bình phương loại I (tuần tự) chắc chắn sẽ phụ thuộc vào thứ tự của các yếu tố. Tôi tin rằng đây là toàn bộ vấn đề.
amip nói rằng Phục hồi lại

Tôi không chắc chắn nếu @Farrel có Loại I SS. Tôi nhớ rằng tôi đã từng quan sát thấy SAS xuất ra SS loại III khác nhau do một số cách sắp xếp khác nhau trong tập dữ liệu và câu lệnh mô hình. Có lẽ điều này cũng có thể xảy ra với R?
Horst Grünbusch

2
Tôi không thể biết sự thật và anh ta có thể không nhớ mình đã cho rằng Q đã được hỏi năm năm trước. Nhưng tôi nghĩ rằng đây là cách giải thích khó hiểu nhất trong các từ của anh ấy "Mô hình y ~ a + b khác với mô hình y ~ b + a (hoặc do đó, việc triển khai của tôi trong R dường như chỉ ra)", đặc biệt là cho thực tế aovlệnh đó trong R sử dụng SS loại I theo mặc định. Khi tôi đưa ra tiền thưởng, tôi dự kiến ​​sẽ nhận được câu trả lời giải thích các vấn đề đằng sau thiết kế anova không cân bằng, sự khác biệt giữa SS loại I / II / III và một số nhận xét về việc hồi quy tuyến tính có hoặc không có vấn đề tương tự.
amip nói rằng Phục hồi lại

1
Không. Ma trận thiết kế là số ít trong anova ngay cả khi nó được cân bằng, khi không có sự khác biệt giữa SS I / II / III. SS I / II / III chỉ khác nhau trong trường hợp không cân bằng vì các yếu tố trở thành không trực giao (không giống như trong trường hợp cân bằng). Theo hiểu biết của tôi, điều này tương ứng với hồi quy tuyến tính với các yếu tố dự đoán tương quan, đây là một tình huống rất phổ biến. Câu trả lời của tôi là vấn đề tương tự cũng xảy ra trong hồi quy, đó chỉ là tiêu chuẩn để tính giá trị p của một yếu tố dự đoán sau khi tính đến tác động của tất cả các yếu tố dự đoán khác; cái này tương ứng với Type III SS trong anova.
amip nói phục hồi Monica

1
Những câu hỏi như vậy về thứ tự biến trong ANOVA tiếp tục xuất hiện, giống như câu hỏi này được di chuyển từ Stack Overflow ngày hôm qua. Tôi nghĩ thật an toàn khi cho rằng câu hỏi 5 tuổi này tương tự dựa trên aovchứ không phải lmlà hữu ích và có câu trả lời cho câu hỏi này thuộc loại mà @amoeba đã nêu trong nhận xét từ ngày 12 tháng 5, 14:31 .
EdM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.