Khởi hành từ giả định quy tắc trong ANOVA: sự suy yếu hay sai lệch quan trọng hơn?


12

Các mô hình thống kê tuyến tính ứng dụng của Kutner et al. nêu các điều sau đây liên quan đến sự khởi đầu từ giả định quy tắc của các mô hình ANOVA: Kurtosis của phân phối lỗi (nhiều hơn hoặc ít hơn so với phân phối bình thường) quan trọng hơn độ lệch của phân phối về các tác động đối với các suy luận .

Tôi hơi bối rối trước tuyên bố này và đã không quản lý để tìm thấy bất kỳ thông tin liên quan nào, trong sách hoặc trực tuyến. Tôi bối rối vì tôi cũng biết rằng các lô QQ có đuôi nặng là một dấu hiệu cho thấy giả định về tính quy tắc là "đủ tốt" cho các mô hình hồi quy tuyến tính, trong khi các lô QQ bị sai lệch là điều đáng quan tâm hơn (nghĩa là một phép biến đổi có thể phù hợp) .

Tôi có đúng không khi lý luận tương tự xảy ra với ANOVA và việc lựa chọn từ ngữ của họ ( quan trọng hơn về mặt ảnh hưởng đối với suy luận ) chỉ được chọn kém? Tức là một phân phối sai lệch có hậu quả nghiêm trọng hơn và nên tránh, trong khi một lượng nhỏ kurtosis có thể được chấp nhận.

EDIT: Như được quảng cáo bởi rolando2, thật khó để nói rằng cái này quan trọng hơn cái kia trong mọi trường hợp, nhưng tôi chỉ đang tìm kiếm một cái nhìn sâu sắc chung. Vấn đề chính của tôi là tôi đã được dạy rằng trong hồi quy tuyến tính đơn giản, các lô QQ có đuôi nặng hơn (= kurtosis?) Là ổn, vì F-test khá mạnh mẽ chống lại điều này. Mặt khác, các lô QQ bị lệch (hình parabola) thường là mối quan tâm lớn hơn. Điều này dường như đi ngược lại với các hướng dẫn mà sách giáo khoa của tôi cung cấp cho ANOVA, mặc dù các mô hình ANOVA có thể được chuyển đổi thành các mô hình hồi quy và nên có cùng các giả định.

Tôi tin rằng tôi đang xem xét một cái gì đó hoặc tôi có một giả định sai, nhưng tôi không thể tìm ra nó có thể là gì.


3
Trong bài đánh giá về kurtosis, DeCarlo (1997) đã đề xuất điều hoàn toàn ngược lại, rằng độ nghiêng quan trọng hơn trong ANOVA và các thử nghiệm khác về sự bình đẳng của phương tiện. Bạn có thể thấy các trích dẫn ở trang 297 là hữu ích: columbia.edu/~ld208/psymeth97.pdf
Anthony

1
Tôi sẽ tìm thấy câu hỏi hiệu quả nhất nếu nó có thể được giải quyết thành một câu như "Skewness rất quan trọng đối với các suy luận so với kurtosis mà sự sai lệch ở cấp độ ___ thường sẽ làm sai lệch kết quả nhiều như mức độ kurtosis ở cấp độ ___ . " Không có một số lượng hóa như vậy, chỉ đơn giản là nói cái này hay cái kia quan trọng hơn không giúp chúng ta nhiều.
rolando2

Mô phỏng này emis.de/journals/HOA/ADS/Volume7_4/206.pdf của Khan và Rayner (2003) trong JOURNAL OF MATHEMATICS ỨNG DỤNG VÀ KHOA HỌC QUYẾT ĐỊNH tuyên bố rằng "Cả hai bài kiểm tra ANOVA và Kruskal-Wallis đều bị ảnh hưởng nhiều hơn của phân phối lỗi chứ không phải do độ lệch của nó "(trang 204).
bsbk

Một câu hỏi cực kỳ liên quan đến bài kiểm tra hai mẫu - thực sự là ANOVA một chiều với hai cấp độ trong yếu tố - là stats.stackexchange.com/questions/38967/ ( ... Hiện tại có một tiền thưởng để thêm vào tài liệu tham khảo vì không có câu trả lời nào có chứa trích dẫn, vì vậy người trả lời cho câu hỏi này có thể muốn xem qua nó.
Cá bạc

Tôi đồng ý với @ rolando2: "độ lệch còn tệ hơn cả kurtosis" hoặc ngược lại là một tuyên bố khá trống rỗng mà không đề cập đến mức độ lệch / kurtosis. Nhưng cũng cần phải xem xét nhiều hơn nữa! Ví dụ, độ mạnh đối với các loại vi phạm quy tắc này một phần phụ thuộc vào việc kích thước nhóm có bằng nhau hay không , độ mạnh đối với độ lệch có thể phụ thuộc vào hướng xiên - điều tồi tệ hơn nếu một nhóm bị lệch một chiều và nhóm còn lại bị lệch ngược lại, nếu cả hai nhóm bị lệch theo cùng một hướng. (Đây là từ bộ nhớ và kiểm tra lại nhưng đó là một loại ANOVA.)
Silverfish

Câu trả lời:


6

Khó khăn là sự sai lệch và kurtosis phụ thuộc; tác dụng của chúng không thể tách rời hoàn toàn.

Vấn đề là nếu bạn muốn kiểm tra ảnh hưởng của phân phối có độ lệch cao, bạn cũng phải có một phân phối có độ nhiễu cao.

2+1

* (Kurtosis khoảnh khắc thứ tư bình thường, không kurtosis dư thừa)

Khan và Rayner (được đề cập trong câu trả lời trước đó) làm việc với một gia đình cho phép khám phá tác động của sự xiên và kurtosis, nhưng họ không thể tránh được vấn đề này, vì vậy việc họ cố gắng tách chúng ra giới hạn nghiêm trọng đến mức độ ảnh hưởng của xiên có thể được khám phá.

β2β2-1

Ví dụ: nếu bạn muốn thấy ảnh hưởng của độ lệch cao - nói độ lệch> 5, bạn không thể có được phân phối với mức độ tổn thương nhỏ hơn 26!

Vì vậy, nếu bạn muốn điều tra tác động của độ lệch cao, bạn không thể tránh việc điều tra tác động của mức độ tổn thương cao. Do đó, nếu bạn cố gắng tách chúng ra, bạn sẽ không thể đánh giá hiệu quả của việc tăng độ lệch lên mức cao.

Điều đó nói rằng, ít nhất là đối với gia đình phân phối mà họ đã xem xét, và trong giới hạn mà mối quan hệ giữa họ đặt ra, cuộc điều tra của Khan và Rayner dường như cho thấy rằng kurtosis là vấn đề chính.

>2


11

Vấn đề này được giải quyết trong "Tính mạnh mẽ đối với tính phi bình thường của các thử nghiệm thông thường đối với vấn đề vị trí nhiều mẫu" của Khan và Rayner.

Họ đã tìm thấy các xét nghiệm ANOVA bị ảnh hưởng nhiều hơn bởi sự suy yếu hơn là độ lệch và ảnh hưởng của độ lệch không liên quan đến hướng của nó.

Nếu nghi ngờ sai lệch so với tính quy tắc, thử nghiệm Kruskal-Wallis có thể là lựa chọn tốt hơn. Thử nghiệm Kruskal-Wallis mạnh mẽ hơn so với độ lệch so với tính chuẩn bởi vì nó kiểm tra giả thuyết rằng các trung vị điều trị là giống hệt nhau. ANOVA xem xét giả thuyết rằng phương tiện điều trị giống hệt nhau.


Có phải điều này sau đó cũng cho thấy tôi nên diễn giải các lô QQ khác nhau cho hồi quy tuyến tính và ANOVA? Phần lớn các biến đổi tôi đã thực hiện giảm độ lệch, nhưng để lại đuôi hơi nặng (= kurtosis?). Tôi có ấn tượng rằng F-test đủ mạnh để đối phó với cái sau nhưng không phải cái trước. Hay là "cái đuôi nặng là OK" là một sự hiểu lầm từ phía tôi? Tôi không thể tưởng tượng rằng có tồn tại một sự khác biệt cơ bản như vậy giữa hai, vì các mô hình ANOVA cũng có thể được viết lại dưới dạng mô hình hồi quy tuyến tính.
Zenit
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.