Nếu tuyên bố ban đầu không giới hạn các điều kiện theo đó nó được áp dụng khá đáng kể, thì Field đã sai về điều này.
Trả lời phần trích dẫn:
Trên thực tế, điều này có nghĩa là nó thực hiện giống như thử nghiệm MannTHER Whitney!
Không, nó thực sự không. Họ thực sự kiểm tra cho các loại khác nhau. Lấy một ví dụ, nếu hai phân phối gần đối xứng khác nhau về độ lan truyền nhưng không khác nhau về vị trí, Kolmogorov-Smirnov có thể xác định loại khác biệt đó (trong các mẫu đủ lớn so với hiệu ứng) nhưng Wilcoxon-Mann-Whitney không thể
Điều này là do chúng được thiết kế cho các mục đích khác nhau.
"Tuy nhiên, thử nghiệm này có xu hướng có sức mạnh tốt hơn thử nghiệm MannTHER Whitney khi kích thước mẫu nhỏ hơn khoảng 25 mỗi nhóm, và vì vậy rất đáng để lựa chọn nếu đó là trường hợp."
Như một tuyên bố chung, điều này là vô nghĩa. Chống lại những thứ mà Mann-Whitney không kiểm tra nó có sức mạnh tốt hơn, nhưng đối với những thứ mà Mann-Whitney có nghĩa là, thì không. Điều này không thay đổi khi .n<25
[Có thể có một số tình huống mà yêu cầu là đúng; nếu Trường không giải thích bối cảnh mà yêu cầu của anh ấy áp dụng trong đó, tôi không có khả năng đoán được.]
Đây là một đường cong sức mạnh cho n = 20 mỗi nhóm. Mức ý nghĩa là hơn 3% cho mỗi thử nghiệm (trên thực tế, mức ý nghĩa có thể đạt được đối với KS cao hơn một chút và tôi đã không thử sử dụng thử nghiệm ngẫu nhiên để điều chỉnh cho sự khác biệt đó vì vậy nó có một lợi thế nhỏ trong so sánh này ):
Như chúng ta thấy, trong trường hợp này (lần đầu tiên tôi thử), Wilcoxon-Mann-Whitney rõ ràng mạnh hơn.
Với n = 5, Kolmogorov - Smirnov vẫn không mạnh cho tình huống này. [Vậy anh ta đang nói cái quái gì vậy? Là ông so sánh sức mạnh cho một số tình huống không được đề cập trong trích dẫn? Tôi không biết, nhưng chỉ nói về những gì được trích dẫn ở đây, chúng ta không nên đưa ra yêu sách đó theo mệnh giá. Đó là sai trong điều đầu tiên tôi kiểm tra, và - dựa trên sự quen thuộc rộng hơn với hai bài kiểm tra, tôi sẽ dễ dàng đặt cược rằng nó sai cho một loạt các tình huống khác.]
Ở kích thước mẫu 4 và 11 cho các lựa chọn thay thế (và dân số bình thường), một lần nữa, Wilcoxon-Mann-Whitney làm tốt hơn.
Với biến bạn đang xem, một sự thay thế phù hợp có lẽ giống như sự thay đổi tỷ lệ; nhưng nếu một số sức mạnh (như căn bậc hai hoặc căn bậc ba nói hay tốt hơn vẫn là nhật ký) thì dữ liệu của bạn không quá bình thường, những kết quả này tôi đề cập có liên quan. Nếu bạn có dữ liệu rời rạc hoặc không bị thổi phồng có thể tạo ra một số khác biệt, nhưng tôi cá là Kolmogorov-Smirnov sẽ không vượt qua Wilcoxon-Mann-Whitney. [Hiện tại tôi sẽ không theo đuổi điều này vì không rõ liệu nó có phù hợp với hoàn cảnh của bạn không.]
Ngoài ra, các mức ý nghĩa có thể đạt được với Kolmogorov - Smirnov rất vui ở các cỡ mẫu nhỏ. Bạn thường không thể có được các bài kiểm tra gần với mức ý nghĩa thông thường mà bạn có thể muốn. (WMW làm tốt hơn nhiều so với KS liên quan đến các kích thước thử nghiệm có sẵn. Có một cách gọn gàng để cải thiện đáng kể tình trạng mức độ này mà không làm mất tính chất không đối xứng hoặc dựa trên xếp hạng của các thử nghiệm như thế này - điều đó cũng không liên quan đến thử nghiệm ngẫu nhiên - nhưng dường như rất hiếm khi được sử dụng vì một số lý do.)
Lưu ý rằng tôi cẩn thận chọn các ví dụ làm cho mức độ của hai bài kiểm tra gần bằng nhau. Nếu bạn chỉ cần chọn mỗi lần mà không quan tâm đến mức độ sẵn có và so sánh một giá trị p đó, thì gappiness các cấp có thể đạt được các Kolmogorov-Smirnov được sẽ làm cho sức mạnh của nó nhiều tồi tệ nói chung (mặc dù ý chí rất thỉnh thoảng giúp nó một chút như ở đây - những lợi thế này thường sẽ không nhiều và có lẽ không đủ để giúp nó đánh bại WMW ở nhiệm vụ phù hợp với nó).α=0.05
Nếu bạn đang ở trong tình huống Wilcoxon-Mann-Whitney kiểm tra những gì bạn muốn kiểm tra, tôi chắc chắn sẽ không khuyên bạn nên sử dụng Kolmogorov-Smirnov thay thế. Tôi sẽ sử dụng từng bài kiểm tra cho những gì chúng được thiết kế để kiểm tra, đó là nơi chúng có xu hướng làm khá tốt.
Cách tốt nhất để tìm ra điều tốt nhất là thử một số mô phỏng trong các tình huống có thể thực tế đối với loại dữ liệu bạn sẽ có. Sau đó, bạn có thể thấy khi nó làm những gì.
Ngoài ra khi báo cáo các đợt tuyển sinh cùng với các giá trị p, tôi có nên sử dụng độ lệch trung bình và độ lệch chuẩn hoặc trung vị và IQR vì dữ liệu là không tham số không?
Dữ liệu chỉ là dữ liệu. Chúng không phải là tham số hay không tham số - đó là một đặc tính của các mô hình và các thủ tục suy luận mà chúng ta sử dụng dựa trên chúng (ước tính, kiểm tra, khoảng). Tham số có nghĩa là "được xác định đến một số lượng tham số cố định, hữu hạn", không phải là một thuộc tính của dữ liệu mà là của các mô hình. Nếu bạn không thể chỉ đưa ra cả hai bộ giá trị (đó sẽ là sở thích của tôi) và thay vào đó phải chọn cái này hay cái kia, cái nào phù hợp hơn về mặt khoa học hoặc liên quan đến câu hỏi bạn quan tâm?
[Lưu ý rằng Wilcoxon-Mann-Whitney không so sánh phương tiện hoặc trung vị (trừ khi bạn thêm một số giả định tôi cá là không đến gần để áp dụng trong trường hợp này). Kolmogorov-Smirnov cũng không.]