Sự khác biệt giữa xét nghiệm ANOVA và Kruskal-Wallis


20

Tôi đang học R và đã thử nghiệm phân tích phương sai. Tôi đã chạy cả hai

kruskal.test(depVar ~ indepVar, data=df)

anova(lm(depVar ~ indepVar, data=dF))

Có sự khác biệt thực tế giữa hai bài kiểm tra này? Sự hiểu biết của tôi là cả hai đều đánh giá giả thuyết null rằng các quần thể có cùng một nghĩa.

Câu trả lời:


28

Có sự khác biệt trong các giả định và các giả thuyết được thử nghiệm.

ANOVA (và kiểm tra t) rõ ràng là một thử nghiệm về sự bình đẳng của các phương tiện của các giá trị. Kruskal-Wallis (và Mann-Whitney) có thể được xem về mặt kỹ thuật như là một so sánh của các cấp bậc trung bình .

Do đó, về các giá trị ban đầu, Kruskal-Wallis là nhiều hơn tổng quát hơn so với phương tiện: nó kiểm tra xem xác suất quan sát ngẫu nhiên từ mỗi nhóm có khả năng cao hơn hoặc thấp hơn một quan sát ngẫu nhiên từ một nhóm khác hay không. Số lượng dữ liệu thực tế làm cơ sở cho sự so sánh đó không phải là sự khác biệt về phương tiện cũng như sự khác biệt về trung vị, (trong hai trường hợp mẫu), nó thực sự là trung vị của tất cả các khác biệt theo cặp - sự khác biệt giữa Hodges-Lehmann giữa mẫu.

Tuy nhiên, nếu bạn chọn đưa ra một số giả định hạn chế, thì Kruskal-Wallis có thể được coi là một thử nghiệm về sự bình đẳng của phương tiện dân số, cũng như lượng tử (ví dụ như trung bình), và thực sự là một loạt các biện pháp khác. Đó là, nếu bạn cho rằng các phân phối nhóm theo giả thuyết null là như nhau và theo phương án khác, thay đổi duy nhất là phân phối thay đổi (một cái gọi là " vị trí ca thay thế "), sau đó nó cũng là một thử nghiệm về sự bình đẳng của các phương tiện dân số (và, đồng thời, của các trung vị, các phân vị thấp hơn, v.v.).

[Nếu bạn thực hiện giả định đó, bạn có thể có được ước tính và khoảng thời gian cho các ca tương đối, giống như bạn có thể làm với ANOVA. Chà, cũng có thể đạt được các khoảng mà không cần giả định đó, nhưng chúng khó diễn giải hơn.]

Nếu bạn nhìn vào câu trả lời ở đây , đặc biệt là về cuối, nó sẽ thảo luận về sự so sánh giữa thử nghiệm t và Wilcoxon-Mann-Whitney, mà (khi thực hiện các thử nghiệm hai đuôi ít nhất) tương đương với ANOVA và Kruskal-Wallis áp dụng để so sánh chỉ có hai mẫu; nó cung cấp thêm một chút chi tiết, và phần lớn cuộc thảo luận đó được chuyển đến Kruskal-Wallis vs ANOVA.

Nó không hoàn toàn rõ ràng những gì bạn có nghĩa là một sự khác biệt thực tế. Bạn thường sử dụng chúng theo cách tương tự. Khi cả hai bộ giả định được áp dụng, chúng thường có xu hướng cho các loại kết quả khá giống nhau, nhưng chắc chắn chúng có thể cho các giá trị p khá khác nhau trong một số tình huống.

Chỉnh sửa: Đây là một ví dụ về sự giống nhau của suy luận ngay cả ở các mẫu nhỏ - đây là vùng chấp nhận chung cho các thay đổi vị trí giữa ba nhóm (nhóm thứ hai và thứ ba so với nhóm thứ nhất) được lấy mẫu từ các phân phối bình thường (với kích thước mẫu nhỏ) đối với một tập dữ liệu cụ thể, ở mức 5%:

Các khu vực chấp nhận sự khác biệt về địa điểm ở Kruskal-Wallis và Anova

Có thể nhận thấy rất nhiều tính năng thú vị - vùng chấp nhận lớn hơn một chút cho KW trong trường hợp này, với ranh giới của nó bao gồm các đoạn đường thẳng đứng, ngang và chéo (không khó để hiểu tại sao). Hai khu vực cho chúng ta biết những điều rất giống nhau về các thông số quan tâm ở đây.


2
+1. Tôi dám chỉnh sửa nó một chút chỉ để thêm điểm nhấn nơi tôi nghĩ nó cần thiết. Xin vui lòng xem ngay bây giờ, cho dù bạn đồng ý hay không.
ttnphns

@ttnphns cảm ơn đã chỉnh sửa. Có một số lý do cụ thể tại sao một số điều bạn đã thay đổi ở đó, vì vậy tôi có thể chỉnh sửa một số bản gốc trở lại. Tuy nhiên, có lẽ tôi nên nói rõ hơn lý do tại sao tôi viết nó như tôi đã có trước đây. Nhưng trước tiên tôi muốn suy nghĩ cẩn thận về cách tốt nhất để giữ càng nhiều thay đổi của bạn càng tốt.
Glen_b -Reinstate Monica

4

Có, có. Đây anovalà một cách tiếp cận tham số trong khi kruskal.testlà một cách tiếp cận không tham số. Vì vậy, kruskal.testkhông cần bất kỳ giả định phân phối.
Từ quan điểm thực tế, khi dữ liệu của bạn bị sai lệch, thì đó anovasẽ không phải là một cách tiếp cận tốt để sử dụng. Có một cái nhìn vào câu hỏi này ví dụ.


4
Tôi muốn nói rằng Kruskal-Wallis ANOVA đưa ra các giả định thoải mái về phân phối so với ANOVA tham số: các quan sát trong mỗi nhóm đến từ các quần thể có hình dạng tương tự nhau . Sự không đồng nhất hoặc phân phối sai lệch cao vẫn còn là vấn đề như với các thử nghiệm truyền thống.
chl

2
Làm sao vậy, @chl? Các cấp bậc không bị thay đổi bởi xiên và KW được xếp hạng dựa trên. Tôi đang thiếu gì?
Peter Flom - Tái lập Monica

6
3/π

H0

1
@ StéphaneLaurent Nếu các hình dạng không giống nhau, nó có thể dẫn đến suy luận xấu. xem ví dụ của tôi ở đây
Flask

3

Δnhập mô tả hình ảnh ở đây

()H0:{Δ=0}H1:{Δ0}()H0H0)()H0:{the distributions are equal}

()Δ>0Δ

xyn=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

nhập mô tả hình ảnh ở đây

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

Như tôi đã tuyên bố lúc đầu, tôi không chắc chắn về việc xây dựng chính xác của KW. Có lẽ câu trả lời của tôi là chính xác hơn cho một bài kiểm tra không tham số khác (Mann-Whitney? ..), nhưng cách tiếp cận nên tương tự.


1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionNhư đã đề cập trong câu trả lời của Glen, các bình luận và ở nhiều nơi khác trên trang web này, điều đó đúng nhưng là việc đọc hẹp về những gì bài kiểm tra làm. same shape/dispersionthực ra không phải là một bản chất mà là một giả định bổ sung được sử dụng trong một số và không được sử dụng trong các tình huống khác.
ttnphns

PS Ví dụ thứ 2 của bạn không mâu thuẫn hoặc bác bỏ kiểm tra KW. H0 của bài kiểm tra là không distributions are equal , thật sai lầm khi nghĩ như vậy. H0 chỉ có điều, theo nghĩa bóng, hai điểm "ngưng tụ của trọng lực" không lệch nhau.
ttnphns

H0

1
Tôi chỉ nói đây là một niềm tin phổ biến. Theo sự giúp đỡ của krusal.test()R,H0

1
Vâng. the equality of the location parameters of the distributionlà công thức đúng (mặc dù "vị trí" không nên được coi là chỉ là trung bình hoặc trung bình, trong trường hợp chung). Nếu bạn giả sử các hình dạng giống nhau, thì, một cách tự nhiên, cùng H0 này trở thành "phân phối giống hệt nhau".
ttnphns

0

Kruskal-Wallis dựa trên xếp hạng, thay vì dựa trên giá trị. Điều này có thể tạo ra sự khác biệt lớn nếu có phân phối sai lệch hoặc nếu có trường hợp cực đoan

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.