Tôi đã chọc một chút trong kho lưu trữ Xác thực chéo và dường như không tìm thấy câu trả lời cho câu hỏi của tôi. Câu hỏi của tôi là như sau: Wikipedia đưa ra ba giả định cần giữ cho bài kiểm tra xếp hạng có chữ ký của Wilcoxon (sửa đổi một chút cho câu hỏi của tôi):
Đặt Zi = Xi-Yi cho i = 1, ..., n.
Sự khác biệt Zi được cho là độc lập.
(a.) Mỗi Zi xuất phát từ cùng một quần thể liên tục và (b.) mỗi Zi là đối xứng về một trung vị chung;
Các giá trị mà Xi và Yi đại diện được sắp xếp theo thứ tự ... vì vậy các phép so sánh 'lớn hơn', 'nhỏ hơn' và 'bằng' là hữu ích.
Tuy nhiên, tài liệu cho? Wilcox.test trong R dường như chỉ ra rằng (2.b) thực sự là một cái gì đó được thử nghiệm bởi quy trình:
"... nếu cả hai x và y được đưa ra và ghép nối là TRUE, một bài kiểm tra xếp hạng có chữ ký của Wilcoxon là null mà phân phối ... của x - y (trong trường hợp hai mẫu được ghép) là đối xứng về mu được thực hiện."
Điều này đối với tôi như thể thử nghiệm được thực hiện cho giả thuyết null rằng "Z được phân phối đối xứng quanh trung vị mu = someMu" - như vậy việc từ chối đối với null có thể là từ chối đối xứng hoặc từ chối mà mu xung quanh Z đối xứng là someMu.
Đây có phải là một sự hiểu biết chính xác về tài liệu R cho wilcox.test? Lý do điều này rất quan trọng, tất nhiên, là vì tôi đang tiến hành một số thử nghiệm khác biệt được ghép nối trên một số dữ liệu trước và sau ("X" và "Y" ở trên). Dữ liệu "trước" và "sau" riêng lẻ bị lệch rất nhiều, nhưng sự khác biệt không bị sai lệch nhiều (mặc dù vẫn bị sai lệch đôi chút). Điều đó có nghĩa là dữ liệu "trước" hoặc "sau" được xem xét một mình có độ lệch ~ 7 đến 21 (tùy thuộc vào mẫu tôi đang xem), trong khi dữ liệu "khác biệt" có độ lệch ~ = 0,5 đến 5. Vẫn bị lệch, nhưng gần như không nhiều
Nếu có sự sai lệch trong dữ liệu "khác biệt" của tôi sẽ khiến xét nghiệm Wilcoxon cho tôi kết quả sai / sai (như bài báo Wikipedia dường như chỉ ra), thì độ lệch có thể là một mối quan tâm lớn. Tuy nhiên, nếu các xét nghiệm Wilcoxon thực sự đang kiểm tra xem phân phối khác biệt có "đối xứng quanh mu = someMu" (như? Wilcox.test dường như chỉ ra) thì điều này ít đáng quan tâm.
Vì vậy, câu hỏi của tôi là:
Giải thích nào ở trên là đúng? Là sự sai lệch trong phân phối "khác biệt" của tôi sẽ làm sai lệch thử nghiệm Wilcoxon của tôi?
Nếu độ lệch là một mối quan tâm: "Bao nhiêu độ lệch là một mối quan tâm?"
Nếu Wilcoxon đã ký các bài kiểm tra xếp hạng có vẻ không phù hợp lắm ở đây, có gợi ý nào cho những gì tôi nên sử dụng không?
Cám ơn rất nhiều. Nếu bạn có thêm gợi ý nào về cách tôi có thể thực hiện phân tích này, tôi rất vui khi nghe chúng (mặc dù tôi cũng có thể mở một chủ đề khác cho mục đích đó). Ngoài ra, đây là câu hỏi đầu tiên của tôi về Xác thực chéo; nếu bạn có gợi ý / nhận xét về cách tôi hỏi câu hỏi này, tôi cũng cởi mở với nó!
Một nền tảng nhỏ: Tôi đang phân tích một bộ dữ liệu có chứa các quan sát về những gì tôi sẽ gọi là "lỗi trong sản xuất công ty." Tôi có một quan sát về các lỗi xảy ra trong quá trình sản xuất trước và sau khi kiểm tra bất ngờ, và một trong những mục tiêu của phân tích là trả lời câu hỏi, "việc kiểm tra có tạo ra sự khác biệt về số lỗi bị che khuất không?"
Tập dữ liệu trông giống như thế này:
ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0
Có khoảng 4000 quan sát. Các biến khác là các quan sát catagorical mà descrie đặc điểm của các công ty. Kích thước có thể nhỏ, trung bình hoặc lớn và mỗi hãng là một và chỉ một trong số đó. Các công ty có thể là bất kỳ hoặc tất cả các "loại".
Tôi được yêu cầu thực hiện một số thử nghiệm đơn giản để xem liệu có sự khác biệt đáng kể về mặt thống kê về tỷ lệ lỗi được quan sát trước và sau khi kiểm tra cho tất cả các công ty và các nhóm phụ khác nhau (dựa trên kích thước và loại). Các thử nghiệm T đã bị loại vì dữ liệu bị sai lệch nghiêm trọng cả trước và sau, ví dụ, trong R trước khi dữ liệu trông giống như thế này:
summary(errorsBefore)
# Min. 1st Qu. Median Mean 3rd Qu. Max
# 0.000 0.000 4.000 12.00 13.00 470.0
(Chúng được tạo thành - Tôi sợ rằng tôi không thể đăng dữ liệu thực tế hoặc bất kỳ thao tác thực tế nào của nó do vấn đề độc quyền / quyền riêng tư - lời xin lỗi của tôi!)
Sự khác biệt được ghép nối tập trung hơn nhưng vẫn không phù hợp lắm với phân phối bình thường - quá cao. Dữ liệu khác biệt trông giống như thế này:
summary(errorsBefore-errorsAfter)
# Min. 1st Qu. Median Mean 3rd Qu. Max
# -110.0 -2.000 0.000 0.005 2.000 140.0
Có ý kiến cho rằng tôi sử dụng bài kiểm tra xếp hạng có chữ ký của Wilcoxon, và sau một bản thuyết phục ngắn gọn về? Wilcox.test và Wikipedia, và ở đây, đây có vẻ như là bài kiểm tra để sử dụng. Xem xét các giả định ở trên, tôi tin rằng (1) vẫn ổn với quy trình tạo dữ liệu. Giả định (2.a) không hoàn toàn đúng với dữ liệu của tôi, nhưng cuộc thảo luận ở đây: Thay thế cho thử nghiệm Wilcoxon khi phân phối không liên tục? dường như chỉ ra rằng điều này không quá đáng quan tâm. Giả định (3) là tốt. Mối quan tâm duy nhất của tôi (tôi tin) là Giả định (2.b).
Một lưu ý nữa , vài năm sau: Cuối cùng tôi đã tham gia một khóa học thống kê phi tham số xuất sắc và dành nhiều thời gian cho các bài kiểm tra tổng xếp hạng. Được nhúng trong giả định (2.a), "Mỗi Zi đến từ cùng một quần thể liên tục", là ý tưởng cho rằng cả hai mẫu đều xuất phát từ các quần thể có phương sai bằng nhau - điều này thực sự rất quan trọng, nói một cách thực tế. Nếu bạn lo ngại về sự khác biệt trong dân số của mình (từ đó bạn rút ra các mẫu), bạn nên quan tâm đến việc sử dụng WMW.