Sự phù hợp của Wilcoxon đã ký kiểm tra xếp hạng


11

Tôi đã chọc một chút trong kho lưu trữ Xác thực chéo và dường như không tìm thấy câu trả lời cho câu hỏi của tôi. Câu hỏi của tôi là như sau: Wikipedia đưa ra ba giả định cần giữ cho bài kiểm tra xếp hạng có chữ ký của Wilcoxon (sửa đổi một chút cho câu hỏi của tôi):

Đặt Zi = Xi-Yi cho i = 1, ..., n.

  1. Sự khác biệt Zi được cho là độc lập.

  2. (a.) Mỗi ​​Zi xuất phát từ cùng một quần thể liên tục và (b.) mỗi Zi là đối xứng về một trung vị chung;

  3. Các giá trị mà Xi và Yi đại diện được sắp xếp theo thứ tự ... vì vậy các phép so sánh 'lớn hơn', 'nhỏ hơn' và 'bằng' là hữu ích.

Tuy nhiên, tài liệu cho? Wilcox.test trong R dường như chỉ ra rằng (2.b) thực sự là một cái gì đó được thử nghiệm bởi quy trình:

"... nếu cả hai x và y được đưa ra và ghép nối là TRUE, một bài kiểm tra xếp hạng có chữ ký của Wilcoxon là null mà phân phối ... của x - y (trong trường hợp hai mẫu được ghép) là đối xứng về mu được thực hiện."

Điều này đối với tôi như thể thử nghiệm được thực hiện cho giả thuyết null rằng "Z được phân phối đối xứng quanh trung vị mu = someMu" - như vậy việc từ chối đối với null có thể từ chối đối xứng hoặc từ chối mà mu xung quanh Z đối xứng là someMu.

Đây có phải là một sự hiểu biết chính xác về tài liệu R cho wilcox.test? Lý do điều này rất quan trọng, tất nhiên, là vì tôi đang tiến hành một số thử nghiệm khác biệt được ghép nối trên một số dữ liệu trước và sau ("X" và "Y" ở trên). Dữ liệu "trước" và "sau" riêng lẻ bị lệch rất nhiều, nhưng sự khác biệt không bị sai lệch nhiều (mặc dù vẫn bị sai lệch đôi chút). Điều đó có nghĩa là dữ liệu "trước" hoặc "sau" được xem xét một mình có độ lệch ~ 7 đến 21 (tùy thuộc vào mẫu tôi đang xem), trong khi dữ liệu "khác biệt" có độ lệch ~ = 0,5 đến 5. Vẫn bị lệch, nhưng gần như không nhiều

Nếu có sự sai lệch trong dữ liệu "khác biệt" của tôi sẽ khiến xét nghiệm Wilcoxon cho tôi kết quả sai / sai (như bài báo Wikipedia dường như chỉ ra), thì độ lệch có thể là một mối quan tâm lớn. Tuy nhiên, nếu các xét nghiệm Wilcoxon thực sự đang kiểm tra xem phân phối khác biệt có "đối xứng quanh mu = someMu" (như? Wilcox.test dường như chỉ ra) thì điều này ít đáng quan tâm.

Vì vậy, câu hỏi của tôi là:

  1. Giải thích nào ở trên là đúng? Là sự sai lệch trong phân phối "khác biệt" của tôi sẽ làm sai lệch thử nghiệm Wilcoxon của tôi?

  2. Nếu độ lệch một mối quan tâm: "Bao nhiêu độ lệch là một mối quan tâm?"

  3. Nếu Wilcoxon đã ký các bài kiểm tra xếp hạng có vẻ không phù hợp lắm ở đây, có gợi ý nào cho những gì tôi nên sử dụng không?

Cám ơn rất nhiều. Nếu bạn có thêm gợi ý nào về cách tôi có thể thực hiện phân tích này, tôi rất vui khi nghe chúng (mặc dù tôi cũng có thể mở một chủ đề khác cho mục đích đó). Ngoài ra, đây là câu hỏi đầu tiên của tôi về Xác thực chéo; nếu bạn có gợi ý / nhận xét về cách tôi hỏi câu hỏi này, tôi cũng cởi mở với nó!


Một nền tảng nhỏ: Tôi đang phân tích một bộ dữ liệu có chứa các quan sát về những gì tôi sẽ gọi là "lỗi trong sản xuất công ty." Tôi có một quan sát về các lỗi xảy ra trong quá trình sản xuất trước và sau khi kiểm tra bất ngờ, và một trong những mục tiêu của phân tích là trả lời câu hỏi, "việc kiểm tra có tạo ra sự khác biệt về số lỗi bị che khuất không?"

Tập dữ liệu trông giống như thế này:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Có khoảng 4000 quan sát. Các biến khác là các quan sát catagorical mà descrie đặc điểm của các công ty. Kích thước có thể nhỏ, trung bình hoặc lớn và mỗi hãng là một và chỉ một trong số đó. Các công ty có thể là bất kỳ hoặc tất cả các "loại".

Tôi được yêu cầu thực hiện một số thử nghiệm đơn giản để xem liệu có sự khác biệt đáng kể về mặt thống kê về tỷ lệ lỗi được quan sát trước và sau khi kiểm tra cho tất cả các công ty và các nhóm phụ khác nhau (dựa trên kích thước và loại). Các thử nghiệm T đã bị loại vì dữ liệu bị sai lệch nghiêm trọng cả trước và sau, ví dụ, trong R trước khi dữ liệu trông giống như thế này:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Chúng được tạo thành - Tôi sợ rằng tôi không thể đăng dữ liệu thực tế hoặc bất kỳ thao tác thực tế nào của nó do vấn đề độc quyền / quyền riêng tư - lời xin lỗi của tôi!)

Sự khác biệt được ghép nối tập trung hơn nhưng vẫn không phù hợp lắm với phân phối bình thường - quá cao. Dữ liệu khác biệt trông giống như thế này:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Có ý kiến ​​cho rằng tôi sử dụng bài kiểm tra xếp hạng có chữ ký của Wilcoxon, và sau một bản thuyết phục ngắn gọn về? Wilcox.test và Wikipedia, và ở đây, đây có vẻ như là bài kiểm tra để sử dụng. Xem xét các giả định ở trên, tôi tin rằng (1) vẫn ổn với quy trình tạo dữ liệu. Giả định (2.a) không hoàn toàn đúng với dữ liệu của tôi, nhưng cuộc thảo luận ở đây: Thay thế cho thử nghiệm Wilcoxon khi phân phối không liên tục? dường như chỉ ra rằng điều này không quá đáng quan tâm. Giả định (3) là tốt. Mối quan tâm duy nhất của tôi (tôi tin) là Giả định (2.b).

Một lưu ý nữa , vài năm sau: Cuối cùng tôi đã tham gia một khóa học thống kê phi tham số xuất sắc và dành nhiều thời gian cho các bài kiểm tra tổng xếp hạng. Được nhúng trong giả định (2.a), "Mỗi Zi đến từ cùng một quần thể liên tục", là ý tưởng cho rằng cả hai mẫu đều xuất phát từ các quần thể có phương sai bằng nhau - điều này thực sự rất quan trọng, nói một cách thực tế. Nếu bạn lo ngại về sự khác biệt trong dân số của mình (từ đó bạn rút ra các mẫu), bạn nên quan tâm đến việc sử dụng WMW.


Cảm ơn hai câu trả lời! Cả hai đều khá giúp tôi ra ngoài. Tôi sẽ "chọn cả hai" nếu có thể. Mike chỉ cho tôi một số hiểu biết về lý thuyết, rất hữu ích về mặt khái niệm, mặc dù Aniko trả lời trực tiếp hơn một chút về câu hỏi ban đầu của tôi. Cám ơn hai bạn!
CompEcon

Câu trả lời:


8

Wikipedia đã đánh lừa bạn khi nói "... nếu cả hai x và y được đưa ra và ghép nối là TRUE, một bài kiểm tra xếp hạng có chữ ký của Wilcoxon về sự phân phối ... của x - y (trong trường hợp hai mẫu được ghép đôi) là đối xứng về mu được thực hiện. "

zi=xiyi

ln(xi)ln(yi)

Tôi? Tôi sẽ làm cả hai, và bất cứ điều gì khác tôi có thể nấu ăn (khả năng kiểm tra tỷ lệ trên số lượng Poisson theo quy mô doanh nghiệp?). Kiểm tra giả thuyết là tất cả về việc xác định liệu bằng chứng có thuyết phục hay không, và một số người có rất nhiều thuyết phục '.


Ah, điều đó rất có ý nghĩa. Đặc biệt là bây giờ tôi đã về nhà và lấy ra cuốn sách giáo khoa DeGroot & Schervish cũ của tôi, trong đó có một mô tả hay về những gì các bài kiểm tra dấu hiệu này đang thực sự làm. Tuyệt diệu. Và cảm ơn những suy nghĩ chung về thử nghiệm giả thuyết :) Tôi thích quan điểm này. Một lưu ý nhỏ: phần bạn lưu ý là sai lệch thực sự là từ R, từ tài liệu cho wilcox.test. Điều này hơi phiền với tôi ...
CompEcon

9

Cả Wikipedia và trang trợ giúp R ​​đều đúng và đang cố gắng nêu ra cùng một điều, họ chỉ diễn đạt nó theo cách khác nhau.

Bài viết Wikipedia nêu các giả thuyết là (trung vị = 0) so với (trung vị! = 0) và nói rằng bạn có thể kết luận điều này từ thử nghiệm nếu sự khác biệt có phân phối đối xứng (+ các giả định khác).

Trang trợ giúp R ​​cụ thể hơn, nó nêu các giả thuyết là (trung vị = 0 và sự khác biệt có phân phối đối xứng) so với (ít nhất một trong số đó là sai). Vì vậy, nó đã chuyển một giả định vào giả thuyết null. Tôi nghĩ rằng họ đã làm điều này để nhấn mạnh sự cần thiết của tính đối xứng: với những khác biệt sai lệch, bài kiểm tra xếp hạng đã ký sẽ từ chối giả thuyết khống ngay cả khi trung vị đã chết. Nếu bạn đọc sách giáo khoa, nó cũng có thể cho bạn biết rằng giả thuyết null đang được kiểm tra là P (X> Y) = 0,5 - phần còn lại trong thực tế chỉ cần làm theo điều này.

Về mặt ứng dụng, câu hỏi tất nhiên là liệu bạn có quan tâm cụ thể đến trung vị không (và sau đó độ lệch là một vấn đề và kiểm tra trung bình là một giải pháp thay thế có thể) hoặc bạn có quan tâm đến toàn bộ phân phối không, và sau đó P (X> y)! = 0,5 là bằng chứng của những thay đổi.


1
Ok, điều này có ý nghĩa. Cảm ơn các đầu vào! Tôi nhận thấy rằng trang Wikipedia cho bài kiểm tra trung bình cho biết bài kiểm tra Mann-Whitney-U không ghép đôi được ưu tiên. Điều này ngay lập tức khiến tôi nghĩ rằng tôi sắp trở lại nơi tôi đã bắt đầu, nghĩ rằng thử nghiệm Wilcoxon được ghép nối bằng cách nào đó sử dụng nhiều thông tin hơn. Có lẽ điều tôi thực sự cố gắng nghĩ qua là ý của bạn khi bạn nói "quan tâm cụ thể về trung vị ... hoặc về toàn bộ phân phối." Tôi quan tâm đến toàn bộ phân phối, nhưng đang mô tả nó thông qua trung vị ..
CompEcon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.