Hiệu ứng kích thước để Wilcoxon ký kiểm tra xếp hạng?


18

Một số tác giả (ví dụ Pallant, 2007, trang 225; xem hình ảnh bên dưới) đề nghị tính kích thước hiệu ứng cho bài kiểm tra xếp hạng Wilcoxon đã ký bằng cách chia thống kê kiểm tra cho căn bậc hai của số lượng quan sát:

r=Znx+ny

Zlà đầu ra thống kê thử nghiệm của SPSS (xem hình ảnh bên dưới) cũng như wilcoxsign_testtrong R. (Xem thêm câu hỏi liên quan của tôi: teststatistic vs linearstatistic trong wilcoxsign_test )

Những người khác đề xuất các hệ số tương quan Bravais-Pearson ( ) hoặc Spearman ( ) (tùy thuộc vào loại dữ liệu). rSr=cov(XY)sd(X)×sd(Y)rS

Khi bạn tính toán chúng, hai rs thậm chí không giống nhau. Ví dụ: đối với dữ liệu hiện tại của tôi:

r = 0,23 (đối với )r=Znx+ny

r = 0,43 (Pearson)

Đây sẽ ngụ ý kích thước hiệu ứng khá khác nhau.

Vì vậy, kích thước hiệu ứng chính xác để sử dụng là gì, và hai rs liên quan với nhau như thế nào?


Trang 224 (phần dưới cùng) và 225 từ Pallant, J. (2007). Hướng dẫn sinh tồn SPSS:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây



3
Tôi thà để nó như vậy - nếu Bravais xứng đáng được ghi nhận bằng một ngôn ngữ, anh ta xứng đáng với ngôn ngữ khác! Tôi đánh giá cao việc lấp đầy một khoảng trống trong giáo dục của tôi.
Glen_b -Reinstate Monica

1
Có, bởi vì tôi cần một bài kiểm tra có thể xử lý các mối quan hệ.

2
nnn=nx+ny

1
Cá nhân tôi nghĩ rằng Z / sqrt (n) có thể là một lựa chọn. Wikipedia trên Mann-Whitney liên kết đến một bài báo pdf của Kirby, người cũng coi Wilcoxon đã ghép đôi; Tôi chưa đọc bài báo cho mình.
ttnphns

Câu trả lời:


6
  • Nếu bạn không có quan hệ, tôi sẽ báo cáo tỷ lệ sau các giá trị nhỏ hơn giá trị tương ứng trước các giá trị.
  • Nếu bạn có quan hệ, bạn có thể báo cáo tỷ lệ sau các giá trị nhỏ hơn trước trong tổng số các cặp không bị ràng buộc hoặc báo cáo cả ba tỷ lệ (<, =,>) và có lẽ là tổng của hai giá trị ý nghĩa hơn Ví dụ: bạn có thể nói '33% ít sợ thống kê hơn, 57% không thay đổi và 10% sợ hãi hơn sau khóa học như vậy 90% giống hoặc tốt hơn trước '.

NzNz/Nz/N

Có một nếp nhăn khác, mặc dù. Mặc dù bạn muốn ước tính kích thước của hiệu ứng tổng thể, mọi người thường sử dụng bài kiểm tra xếp hạng có chữ ký của Wilcoxon với dữ liệu chỉ là thứ tự. Đó là, nơi họ không tin tưởng rằng dữ liệu có thể chỉ ra mức độ đáng tin cậy của sự thay đổi trong học sinh, nhưng chỉ có sự thay đổi xảy ra. Điều đó mang lại cho tôi tỷ lệ được cải thiện thảo luận ở trên.


Mặt khác, nếu bạn tin tưởng rằng các giá trị về bản chất có ý nghĩa (ví dụ: bạn chỉ sử dụng bài kiểm tra xếp hạng đã ký vì tính mạnh mẽ của nó đối với tính quy tắc và ngoại lệ), bạn chỉ có thể sử dụng mức chênh lệch trung bình hoặc trung bình thô hoặc chênh lệch trung bình chuẩn như một thước đo hiệu quả.


2
+1 Các biện pháp hiệu quả được đề xuất của bạn rất dễ hiểu và cũng liên quan đến thống kê kiểm tra.
Giăng

2

Không biết loại dữ liệu nào được đánh giá, rất khó để đưa ra lời khuyên tốt ở đây. Và thực sự, đó là tất cả những gì bạn có thể nhận được. Không có thứ gọi là thước đo hiệu ứng tốt nhất cho các câu hỏi như thế này ... có lẽ đã từng.

Các kích thước hiệu ứng được đề cập trong câu hỏi là tất cả các kích thước hiệu ứng được tiêu chuẩn hóa. Nhưng nó hoàn toàn có thể là phương tiện hoặc trung bình của các biện pháp ban đầu là tốt. Ví dụ: nếu bạn đang đo thời gian để quá trình sản xuất hoàn thành thì sự khác biệt về thời gian sẽ là kích thước hiệu ứng hoàn toàn hợp lý. Mọi thay đổi trong quy trình, các phép đo trong tương lai, các phép đo trên các hệ thống và các phép đo giữa các nhà máy đều sẽ được xử lý kịp thời. Có thể bạn muốn trung bình hoặc có thể bạn muốn trung bình, hoặc thậm chí chế độ, nhưng điều đầu tiên bạn cần làm là nhìn vào thang đo thực tế và xem kích thước hiệu ứng có hợp lý để diễn giải và kết nối mạnh mẽ với thước đo hay không.

Để hỗ trợ suy nghĩ về điều đó, các hiệu ứng nên được tiêu chuẩn hóa là những thứ được đo lường gián tiếp hơn và theo nhiều cách. Ví dụ, thang đo tâm lý có thể thay đổi theo thời gian và theo nhiều cách và cố gắng để có được một biến số cơ bản không được đánh giá trực tiếp. Trong những trường hợp bạn muốn kích thước hiệu ứng tiêu chuẩn.

Với kích thước hiệu ứng được tiêu chuẩn hóa, vấn đề quan trọng không chỉ là sử dụng mà còn ý nghĩa của chúng. Khi bạn ngụ ý trong câu hỏi của mình, bạn cũng không biết ý nghĩa của chúng và đó là điều quan trọng. Nếu bạn không biết hiệu ứng được tiêu chuẩn hóa là gì thì bạn không thể báo cáo chính xác, giải thích chính xác hoặc sử dụng chính xác. Hơn nữa, nếu có nhiều cách bạn muốn thảo luận về dữ liệu thì hoàn toàn không có gì ngăn bạn báo cáo nhiều hơn một kích thước hiệu ứng. Bạn có thể thảo luận về dữ liệu của mình về mối quan hệ tuyến tính, như với tương quan thời điểm sản phẩm hoặc về mối quan hệ giữa các cấp bậc với Spearmanrvà sự khác biệt giữa những người hoặc chỉ cung cấp tất cả các thông tin trong bảng. Không có gì sai với điều đó cả. Nhưng hơn bất cứ điều gì bạn sẽ phải quyết định những gì bạn muốn kết quả của bạn có ý nghĩa. Đó là điều không thể trả lời từ thông tin được cung cấp và có thể yêu cầu nhiều thông tin và kiến ​​thức cụ thể về miền hơn là hợp lý cho một câu hỏi trong loại diễn đàn này.

Và luôn suy nghĩ phân tích tổng hợp về cách bạn báo cáo hiệu ứng. Mọi người trong tương lai có thể nhận kết quả mà tôi đang báo cáo và tích hợp chúng với những người khác không? Có lẽ có một tiêu chuẩn trong lĩnh vực của bạn cho những điều này. Có lẽ bạn đã chọn một bài kiểm tra không tham số chủ yếu vì bạn không tin vào kết luận mà người khác đã đưa ra về các phân phối cơ bản và bạn muốn thận trọng hơn trong các giả định của mình trong một lĩnh vực chủ yếu sử dụng các bài kiểm tra tham số. Trong trường hợp đó, không có gì sai khi cung cấp thêm kích thước hiệu ứng thường được sử dụng với các thử nghiệm tham số. Những vấn đề này và nhiều vấn đề khác cần được xem xét khi suy nghĩ về cách bạn đặt phát hiện của mình trong một tài liệu lớn hơn về nghiên cứu tương tự. Thông thường thống kê mô tả tốt giải quyết những vấn đề này.

Vì vậy, đó là lời khuyên chính. Tôi có một vài ý kiến ​​bổ sung. Nếu bạn muốn kích thước hiệu ứng của bạn liên quan mật thiết đến thử nghiệm bạn đã làm thì Zđề xuất dựa trên rõ ràng là tốt nhất. Kích thước hiệu ứng tiêu chuẩn của bạn sẽ có nghĩa tương tự như thử nghiệm. Nhưng ngay khi bạn không làm điều đó thì không có gì sai khi sử dụng hầu hết mọi thứ khác, ngay cả những thứ như Cohen dcó liên quan đến các xét nghiệm tham số. Không có giả định về tính quy tắc để tính phương tiện, độ lệch chuẩn hoặcdđiểm số. Trong thực tế, có những giả định yếu hơn so với hệ số tương quan được khuyến nghị. Và luôn luôn báo cáo các biện pháp mô tả tốt. Một lần nữa, các biện pháp mô tả không có giả định bạn sẽ vi phạm nhưng hãy ghi nhớ ý nghĩa thực chất của chúng. Bạn báo cáo số liệu thống kê mô tả nói lên điều gì đó về dữ liệu của bạn mà bạn muốn nói và phương tiện và trung bình nói những điều khác nhau.

Nếu bạn muốn thảo luận về các biện pháp lặp đi lặp lại so với kích thước hiệu ứng thiết kế độc lập thì đó thực sự là một câu hỏi hoàn toàn mới.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.