Sức mạnh của bài kiểm tra Mann Whitney so với lúc kiểm tra


10

Vì vậy, một thử nghiệm Mann Whitney U được cho là mạnh mẽ khoảng 95% so với thử nghiệm t khi các giả định kiểm tra t về tính quy tắc và phương sai đồng nhất được thỏa mãn. Tôi cũng biết rằng một bài kiểm tra Mann Whitney U mạnh hơn bài kiểm tra t khi những giả định này không được thỏa mãn. Câu hỏi của tôi là, một thử nghiệm Mann Whitney về dữ liệu trong đó các giả định không thỏa mãn hoặc gần như mạnh mẽ như một thử nghiệm t trên dữ liệu mà các giả định được thỏa mãn?

Tôi đang hỏi bởi vì tôi thường thấy mọi người thực hiện các tính toán sức mạnh dựa trên giả định rằng họ sẽ thực hiện khi kiểm tra. Sau khi họ thu thập dữ liệu, họ khám phá dữ liệu và quyết định sử dụng thử nghiệm Mann Whitney thay vào đó và không thực sự xem xét lại việc thay đổi thử nghiệm ảnh hưởng đến sức mạnh như thế nào.

Cảm ơn!


" Tôi cũng biết rằng bài kiểm tra Mann Whitney U mạnh hơn bài kiểm tra t khi các giả định này không được thỏa mãn ". Đó là một tuyên bố quá mạnh mẽ. Giả sử dữ liệu được phân phối đồng đều (ví dụ). Bạn nói rằng bạn biết rằng trong những trường hợp đó, bài kiểm tra U mạnh hơn t , nhưng không phải vậy.
Glen_b -Reinstate Monica

Câu trả lời:


9

1) Thử nghiệm Mann-Whitney không được đảm bảo mạnh hơn thử nghiệm t khi các giả định của thử nghiệm t không được thỏa mãn, mặc dù đối với các loại vi phạm chúng ta thể thấy trong thế giới thực, đó là. Xem xét phân phối chuẩn tiêu chuẩn cắt ngắn ở +/- 100 và chênh lệch giữa các phương tiện của hai nhóm 0,01; Điều này không bình thường, nhưng cả hai thử nghiệm sẽ thực hiện như thể nó là do sự khác biệt giữa hai bản phân phối là rất nhỏ.

2) Thử nghiệm t là thử nghiệm mạnh nhất thống nhất về sự khác biệt giữa hai phương tiện của hai biến thể Bình thường blah blah blah, do đó, nó sẽ không bị Mann-Whitney đánh bại trên loại dữ liệu đó bất kể là gì. Tuy nhiên, điều tồi tệ nhất mà Mann-Whitney có thể thực hiện so với thử nghiệm t là khoảng 0,864 về hiệu quả tương đối không có triệu chứng, nghĩa là, nó sẽ cần 1 / 0.864x dữ liệu để có cùng sức mạnh (không có triệu chứng.) ( Hollander và Wolfe , Phương pháp thống kê phi trắc nghiệm.) Không có bất kỳ ràng buộc nào đi theo cách khác. Sao chép một số số từ Hollander và Wolfe, cho các bản phân phối khác nhau, chúng tôi nhận được một IS của MW để kiểm tra t:

  1. Bình thường: 0,955
  2. Đồng phục: 1.0 <- cũng là một ví dụ cho MW tốt hơn so với t cho các trường hợp không bình thường
  3. Hậu cần: 1.097
  4. Số mũ đôi: 1,5
  5. Số mũ: 3.0
  6. Cauchy (cũng dễ thôi):

Tất nhiên, vấn đề là bạn không thể tự bắn vào chân mình bằng cách sử dụng bài kiểm tra Mann-Whitney thay vì bài kiểm tra t, nhưng điều ngược lại là không đúng.


Tại sao Cauchy dễ dàng? Và tại sao là 0? Đối với N hữu hạn, hiệu suất tương đối không thể là , vì sức mạnh của phép thử t không bằng 0. Nhưng với N vô hạn, phương sai của phân phối là không xác định. Cauchy chắc chắn là hư hỏng! inf
Peter Flom

@PeterFlom Thật thú vị! Sự khác biệt giữa giá trị giới hạn và giá trị tại giới hạn làm cho đầu của nó; Pitman là cái trước chứ không phải cái sau.
jbowman

2
@PeterFlom LÀ liên quan đến tỷ lệ của các đạo hàm thứ hai ("độ cong") của các đường cong công suất ở mức null, vì kích thước mẫu đi đến vô cùng. Có thể đường cong sức mạnh có đạo hàm 0 giây ở đó. Trong thực tế, các mẫu có kích thước nhỏ đến trung bình, hai mẫu t không ổn ở Cauchy nếu bạn không nhớ mức ý nghĩa của mình thấp hơn nhiều so với các giá trị danh nghĩa.
Glen_b -Reinstate Monica

Vì vậy, nói cách khác, giả sử tôi lười biếng và không muốn kiểm tra các giả định về tính quy tắc của mình, v.v. và chỉ quyết định tiếp tục và sử dụng thử nghiệm MW thay vì kiểm tra t. Tôi có thể sử dụng thử nghiệm MW và nói rằng, tệ nhất là tôi sẽ cần 1 / 0.864x dữ liệu để đạt được mức năng lượng tương tự như khi thử nghiệm khi tất cả các giả định đều được đáp ứng. Điều đó có ý nghĩa?
Jimj

1
@Jimj không, đó không phải là ý nghĩa của nó. Bạn có thể sử dụng thử nghiệm MW và nói rằng (trong các mẫu lớn) tệ nhất bạn sẽ cần gấp 1 / 0,864 lần dữ liệu để đạt được mức năng lượng tương tự như khi thử nghiệm trên các tập dữ liệu từ cùng một phân phối (0.864 không xảy ra khi tất cả các giả định của t được đáp ứng ... khi chúng tồn tại, thì
IS

10

thử nghiệm Mann Whitney trên dữ liệu trong đó các giả định không được thỏa mãn hoặc gần như mạnh mẽ như thử nghiệm t trên dữ liệu khi các giả định được thỏa mãn?

Một cụm từ như 'mạnh mẽ' không thực sự hoạt động như một tuyên bố chung.

Sức mạnh không đặc biệt có thể so sánh trên các mô hình phân phối khác nhau. Kích thước của một hiệu ứng nhất định có ý nghĩa khác nhau trong các phần khác nhau của phân phối. Hãy tưởng tượng bạn có một bản phân phối khá đỉnh, nhưng có một cái đuôi nặng nề; bằng biện pháp nào để chúng ta nói một kích thước sai lệch cụ thể tương tự như một cái gì đó có trung tâm 'phẳng' hơn và đuôi nhỏ hơn? Một độ lệch nhỏ có thể dễ dàng nhận được, nhưng độ lệch lớn có thể (so với khả năng phân phối khác mà chúng tôi đang cố gắng so sánh sức mạnh) khó hơn.

Với hai bộ phân phối bình thường có thể có, một cặp có sd lớn và một cặp có sd nhỏ, thật dễ dàng để nói 'tốt, sức mạnh sẽ chỉ mở rộng với độ lệch chuẩn; nếu chúng ta xác định kích thước hiệu ứng của mình theo số lượng độ lệch chuẩn, chúng ta có thể liên quan đến hai đường cong sức mạnh '.

Nhưng bây giờ với các bản phân phối có hình dạng khác nhau , không có sự lựa chọn quy mô rõ ràng. Chúng ta phải đưa ra một số lựa chọn về cách so sánh chúng. Những lựa chọn chúng tôi thực hiện sẽ xác định cách họ "so sánh".

Ví dụ: làm cách nào để so sánh sức mạnh khi dữ liệu là Cauchy với sức mạnh khi dữ liệu được nói là beta (2,2)? Một kích thước hiệu ứng tương đương là gì? Cauchy dưới đây có nhiều phân phối giữa -1 và 1 và ít hơn phân phối giữa -3 và 3 so với phân phối khác. Phạm vi liên vùng của họ là khác nhau, ví dụ. Cơ sở của chúng tôi để so sánh là gì?

Cauchy vs beta

Nếu bạn có thể giải quyết câu hỏi hóc búa đó, bây giờ hãy xem xét nếu một trong các bản phân phối bị lệch sang trái và phần còn lại là lưỡng kim, hoặc bất kỳ vô số khả năng nào khác.

Bạn vẫn có thể tính toán công suất theo bất kỳ giả định cụ thể nào, nhưng so sánh một thử nghiệm qua các giả định phân phối khác nhau thay vì hai thử nghiệm theo giả định phân phối nhất định về mặt khái niệm là rất khó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.