Trong trường hợp nào thì Wilcoxon's Signed-Rank Test sẽ thích hợp hơn cho t-Test hoặc Sign Test?


10

Sau một số cuộc thảo luận (bên dưới), bây giờ tôi có một bức tranh rõ ràng hơn về một câu hỏi tập trung, vì vậy đây là một câu hỏi được sửa đổi, mặc dù một số ý kiến ​​có thể dường như không liên quan đến câu hỏi ban đầu.

Dường như các bài kiểm tra t hội tụ nhanh chóng cho các phân phối đối xứng , rằng bài kiểm tra xếp hạng có chữ ký giả định tính đối xứng , và đối với phân phối đối xứng, không có sự khác biệt giữa phương tiện / giả / trung bình. Nếu vậy, trong trường hợp nào một nhà thống kê tương đối thiếu kinh nghiệm sẽ thấy bài kiểm tra xếp hạng có chữ ký hữu ích, khi họ có cả bài kiểm tra t và bài kiểm tra dấu hiệu có sẵn? Nếu một trong những sinh viên của tôi (ví dụ như khoa học xã hội) đang cố gắng kiểm tra xem liệu một điều trị có thực hiện tốt hơn một biện pháp khác hay không (bằng một số biện pháp tương đối dễ hiểu, ví dụ như một số khái niệm về sự khác biệt "trung bình"), tôi đang loay hoay tìm một nơi để ký kết- kiểm tra xếp hạng, mặc dù nó dường như thường được dạy, và kiểm tra ký hiệu bị bỏ qua, tại trường đại học của tôi.


1
Justme: tất nhiên, tôi đã không nghĩ về điều đó.
JonB

1
Nó phụ thuộc vào sự khôn ngoan thông thường bạn đang nhìn vào; kinh nghiệm của tôi về nó rất khác với bạn. Chắc chắn thật dễ dàng để tìm thấy các tài nguyên nêu rõ rằng tính đối xứng của điểm số chênh lệch được giả định theo giá trị null (và nó quan trọng). Nhưng lưu ý rằng điều này là không có giá trị - do đó, việc tìm thấy sự thiếu đối xứng về điểm số khác biệt trong một mẫu không nhất thiết phải phù hợp - bạn không bắt buộc phải có sự đối xứng theo phương án. Nếu bạn rất tự tin rằng nếu null là đúng thì đối xứng sẽ giữ vững - và trong nhiều trường hợp, đó là một giả định rất hợp lý - ... ctd
Glen_b -Reinstate Monica

1
Ctd ... sau đó không có vấn đề. Vấn đề là, nếu bạn không sẵn sàng thừa nhận nó trước thì bạn không biết liệu sự từ chối có phải do thất bại giả định hay không; điều rõ ràng để làm sau đó chỉ đơn giản là không giả định nó.
Glen_b -Reinstate Monica

2
Trước tiên hãy xem nhận xét thứ hai của bạn: (trên đầu trang của những gì bạn đã đề cập), lưu ý rằng 1. các giả định thông thường không làm cạn kiệt các xét nghiệm tham số. 2. Bài kiểm tra xếp hạng đã ký không thực sự là bài kiểm tra về trung vị mà là số liệu thống kê / giả hành Hodges-Lehmann một mẫu (mặc dù nếu bạn thêm giả định về tính đối xứng vào phương án, thì nó cũng sẽ kiểm tra các giá trị trung bình và phương tiện tồn tại cũng cho phương tiện, trong số nhiều thứ khác). Tương tự, bài kiểm tra tổng thứ hạng không phải là bài kiểm tra về trung vị mà là sự khác biệt về cặp trung vị. Bạn đúng rằng mức độ kiểm tra thứ hạng đã ký có thể khá nhạy cảm với sự bất cân xứng.
Glen_b -Reinstate Monica

2
Theo nhận xét trước đó của bạn: 1 Đối xứng thường không được xem là một phần của null, nhưng là một phần của các giả định bạn cần để các hoán vị có thể được trao đổi theo null. 2. như đã đề cập trước đây, nó thực sự không phải là một thử nghiệm về trung vị, mà là những người giả hành, và điều này vẫn đúng ngay cả dưới một sự thay thế không đối xứng. Đúng là việc giải thích đôi khi dễ dàng hơn nếu bạn đưa ra một số giả định hạn chế, nhưng những hạn chế cần có để biến nó thành một thử nghiệm hợp lý cho các trung vị không cần phải nghiêm ngặt như giả định đối xứng theo phương án.
Glen_b -Reinstate Monica

Câu trả lời:


3

Hãy xem xét sự phân phối của các cặp khác biệt có phần nặng hơn đuôi so với bình thường, nhưng không đặc biệt là "đỉnh"; sau đó thường thì bài kiểm tra xếp hạng đã ký sẽ có xu hướng mạnh hơn bài kiểm tra t, nhưng cũng mạnh hơn bài kiểm tra dấu hiệu.

Ví dụ, tại phân phối logistic, hiệu quả tương đối tiệm cận của kiểm tra xếp hạng đã ký so với kiểm tra t là 1.097, do đó, kiểm tra xếp hạng đã ký phải mạnh hơn t (ít nhất là trong các mẫu lớn hơn), nhưng hiệu quả tương đối tiệm cận của thử nghiệm dấu hiệu liên quan đến thử nghiệm t là 0,822, do đó thử nghiệm dấu hiệu sẽ kém mạnh hơn t (một lần nữa, ít nhất là trong các mẫu lớn hơn).

Khi chúng ta chuyển sang phân phối đuôi nặng hơn (trong khi vẫn tránh các phân phối quá đỉnh), t sẽ có xu hướng hoạt động tương đối tồi tệ hơn, trong khi kiểm tra ký hiệu sẽ cải thiện phần nào, và cả ký hiệu và xếp hạng ký sẽ vượt trội hơn trong việc phát hiện nhỏ hiệu ứng theo tỷ lệ lợi nhuận đáng kể (nghĩa là sẽ yêu cầu kích thước mẫu nhỏ hơn nhiều để phát hiện hiệu ứng). Sẽ có một lớp lớn các bản phân phối mà bài kiểm tra xếp hạng có chữ ký là tốt nhất trong ba bài.

Đây là một ví dụ - phân phối . Công suất được mô phỏng ở mức n = 100 cho ba thử nghiệm, cho mức ý nghĩa 5%. Sức mạnh của bài kiểm tra được đánh dấu màu đen, đối với xếp hạng Wilcoxon đã ký màu đỏ và bài kiểm tra dấu hiệu được đánh dấu màu xanh lá cây. Các mức ý nghĩa khả dụng của bài kiểm tra ký hiệu không bao gồm bất kỳ mức nào đặc biệt gần 5%, vì vậy trong trường hợp đó, một bài kiểm tra ngẫu nhiên đã được sử dụng để tiến gần đến mức ý nghĩa đúng. Trục x là tham số đại diện cho sự dịch chuyển từ trường hợp null (các phép thử đều là hai mặt, do đó đường cong công suất thực tế sẽ đối xứng về 0). t δt3tδ

vẽ đồ thị đường cong sức mạnh cho t, Wilcoxon đã ký thứ hạng và kiểm tra ký với mức ý nghĩa n = 100 và 5% cho t3

Như chúng ta thấy trong cốt truyện, bài kiểm tra xếp hạng đã ký có sức mạnh hơn bài kiểm tra dấu hiệu, đến lượt nó có sức mạnh hơn bài kiểm tra t.


Cảm ơn rất nhiều vì điều này @Glen_b! Tôi vẫn đang cố gắng tìm ra nơi phù hợp với giáo trình của chúng tôi, khi chúng tôi có những sinh viên mà ngay cả khái niệm sức mạnh vượt quá phạm vi nghiên cứu của họ, và tại sao chúng tôi dạy Wilcoxon như là sự thay thế chính cho cặp đôi. Nhưng điều này không cung cấp cho một số động lực hữu ích. Cảm ơn bạn!
justme

Ngẫu nhiên sau khi xem xét tính năng phân phối nào ảnh hưởng đến phương sai tiệm cận của trung vị (và do đó sức mạnh của kiểm tra dấu hiệu), một ví dụ đã xảy ra với tôi khi vị trí tương đối của kiểm tra t và dấu hiệu bị đảo ngược; kết quả là tôi nghĩ rằng có khả năng tốt để xây dựng một trường hợp trong đó bài kiểm tra xếp hạng đã ký có thể làm tốt hơn đáng kể so với một trong hai bài kiểm tra khác. Tôi sẽ chơi với nó nhiều hơn khi tôi có thể và có thể viết một cái gì đó lên nó.
Glen_b -Reinstate Monica

Theo như giáo trình của bạn, rõ ràng có những trường hợp thứ hạng được ký kết vượt trội hơn cả các bài kiểm tra khác (như tôi đã nêu trong câu trả lời của mình - các bản phân phối có phần nặng hơn bình thường, nhưng không đặc biệt đạt đỉnh); t tốt hơn ở mức bình thường hoặc nhẹ hơn, và kiểm tra dấu hiệu tốt hơn khi phân phối có đỉnh cực mạnh (thường có xu hướng đi cùng với đuôi rất nặng, nhưng không phải). [Tuy nhiên, hãy coi chừng, nhầm lẫn những ý tưởng này với những thay đổi lan truyền, điều này không làm thay đổi các thuộc tính tương đối của chúng.] ... Tôi chắc chắn rằng bạn có thể ép một vài câu như vậy trong
Glen_b -Reinstate Monica

Cảm ơn rất nhiều @Glen_b! Vấn đề là tôi không dạy giáo trình, chỉ hỗ trợ nó! Các giáo trình trong hầu hết các khoa dường như là: (i) sử dụng một bài kiểm tra giả thuyết về tính quy phạm (giết tôi ngay bây giờ) và dựa trên đó (ii) sử dụng Wilcoxon hoặc t-Test. Vì vậy, các chi tiết tốt hơn của vai phân phối, vv thậm chí không bao giờ được chạm vào, và cũng không phải là sức mạnh, chỉ là liệu các giả định có được đáp ứng hay không (theo cách hơi rác rưởi). Nhưng suy nghĩ của bạn rất hữu ích cho cá nhân tôi, ít nhất!
justme

Bài đăng tuyệt vời @Glen_b! Vì vậy, về mặt lựa chọn từ hai bài kiểm tra, tôi có thể kết luận rằng chúng ta nên luôn luôn tính toán sức mạnh trước không? Thay vì tuân theo giả định luôn sử dụng Dấu kiểm nếu phân phối chênh lệch không bình thường? Cảm ơn!
Lumos
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.