Cách chọn giữa thử nghiệm t hoặc thử nghiệm không tham số, ví dụ Wilcoxon trong các mẫu nhỏ


96

Một số giả thuyết có thể được kiểm tra bằng cách sử dụng t- test của Sinh viên (có thể sử dụng hiệu chỉnh của Welch cho các phương sai không bằng nhau trong trường hợp hai mẫu) hoặc bằng một bài kiểm tra không tham số như bài kiểm tra xếp hạng có chữ ký của Wilcoxon, bài kiểm tra xếp hạng Wilcoxon-Mann-Whitney U, hoặc kiểm tra dấu hiệu ghép nối. Làm thế nào chúng ta có thể đưa ra quyết định nguyên tắc về thử nghiệm nào là phù hợp nhất, đặc biệt nếu cỡ mẫu là "nhỏ"?

Nhiều sách giáo khoa giới thiệu và ghi chú bài giảng đưa ra cách tiếp cận "sơ đồ" trong đó kiểm tra tính quy phạm (hoặc - vô tình - bằng cách kiểm tra tính quy phạm, hoặc rộng hơn bằng âm mưu QQ hoặc tương tự) để quyết định giữa kiểm tra t -test hoặc không tham số. Đối với t -test hai mẫu chưa ghép cặp, có thể có thêm một kiểm tra về tính đồng nhất của phương sai để quyết định có áp dụng hiệu chỉnh của Welch hay không. Một vấn đề với cách tiếp cận này là cách quyết định áp dụng thử nghiệm nào phụ thuộc vào dữ liệu được quan sát và cách điều này ảnh hưởng đến hiệu suất (công suất, tỷ lệ lỗi Loại I) của thử nghiệm được chọn.

Một vấn đề khác là mức độ khó kiểm tra tính quy tắc trong các tập dữ liệu nhỏ: kiểm tra chính thức có công suất thấp nên các vi phạm có thể không được phát hiện, nhưng các vấn đề tương tự áp dụng nhãn cầu dữ liệu trên lô QQ. Ngay cả các vi phạm nghiêm trọng có thể không bị phát hiện, ví dụ: nếu phân phối hỗn hợp nhưng không có quan sát nào được rút ra từ một thành phần của hỗn hợp. Không giống như cho lớn , chúng ta không thể dựa vào sự an toàn-net của Trung Định lý giới hạn, và bình thường tiệm cận thống kê kiểm định và t phân phối.n

Một phản ứng nguyên tắc cho vấn đề này là "an toàn trước hết": không có cách nào để xác minh một cách đáng tin cậy giả định quy tắc trong một mẫu nhỏ, tuân theo các phương pháp không tham số. Một cách khác là xem xét bất kỳ căn cứ nào để giả sử tính chuẩn, về mặt lý thuyết (ví dụ: biến là tổng của một số thành phần ngẫu nhiên và áp dụng CLT) hoặc theo kinh nghiệm (ví dụ: các nghiên cứu trước đây với biến đề xuất lớn hơn là bình thường) và chỉ sử dụng t -test nếu căn cứ đó tồn tại . Nhưng điều này thường chỉ biện minh cho tính bình thường gần đúng và ở mức độ tự do thấp, thật khó để đánh giá mức độ gần như bình thường cần thiết để tránh làm mất hiệu lực của một t- test.n

Hầu hết các hướng dẫn để chọn một bài kiểm tra t hoặc kiểm tra không tham số tập trung vào vấn đề quy tắc. Nhưng các mẫu nhỏ cũng đưa ra một số vấn đề phụ:

  • Nếu thực hiện phép thử t "mẫu không liên quan" hoặc "không ghép đôi", có nên sử dụng hiệu chỉnh tiếng Wales không? Một số người sử dụng một bài kiểm tra giả thuyết cho sự bình đẳng của phương sai, nhưng ở đây nó sẽ có sức mạnh thấp; những người khác kiểm tra xem SD có "gần" hợp lý hay không (theo các tiêu chí khác nhau). Có an toàn hơn không khi chỉ sử dụng hiệu chỉnh tiếng Wales cho các mẫu nhỏ, trừ khi có một số lý do chính đáng để tin rằng phương sai dân số là như nhau?

  • Nếu bạn thấy sự lựa chọn các phương pháp là sự đánh đổi giữa sức mạnh và sự mạnh mẽ, thì tuyên bố về hiệu quả tiệm cận của các phương pháp không tham số là không có ích . Nguyên tắc cơ bản là " xét nghiệm Wilcoxon có khoảng 95% sức mạnh của thử nghiệm t nếu dữ liệu thực sự bình thường và thường mạnh hơn rất nhiều nếu dữ liệu không, vì vậy đôi khi chỉ cần nghe thấy Wilcoxon" nếu 95% chỉ áp dụng cho lớn , đây là lý do thiếu sót cho các mẫu nhỏ hơn.n

  • Các mẫu nhỏ có thể làm cho rất khó, hoặc không thể, để đánh giá liệu một phép biến đổi có phù hợp với dữ liệu hay không vì khó có thể biết liệu dữ liệu được chuyển đổi có thuộc phân phối chuẩn (đủ) hay không. Vì vậy, nếu một âm mưu QQ tiết lộ dữ liệu sai lệch rất tích cực, có vẻ hợp lý hơn sau khi ghi nhật ký, liệu có an toàn khi sử dụng kiểm tra t trên dữ liệu đã ghi không? Trên các mẫu lớn hơn này sẽ rất hấp dẫn, nhưng với nhỏ tôi có lẽ muốn giữ tắt trừ khi đã có cơ sở để hy vọng một bản phân phối log-bình thường ở nơi đầu tiên.n

  • Điều gì về việc kiểm tra các giả định cho các thông số không? Một số nguồn khuyến nghị xác minh phân phối đối xứng trước khi áp dụng thử nghiệm Wilcoxon (coi đó là thử nghiệm cho vị trí thay vì thống trị ngẫu nhiên), điều này dẫn đến các vấn đề tương tự đối với việc kiểm tra tính quy phạm. Nếu lý do chúng tôi đang áp dụng một bài kiểm tra không tham số ở nơi đầu tiên là sự phục tùng mù quáng đối với câu thần chú "an toàn trước hết", thì khó khăn trong việc đánh giá độ lệch từ một mẫu nhỏ rõ ràng sẽ dẫn chúng tôi đến sức mạnh thấp hơn của bài kiểm tra dấu hiệu ghép đôi .

Với những vấn đề mẫu nhỏ này, liệu có một quy trình tốt - hy vọng có thể thực hiện được để giải quyết khi quyết định giữa các xét nghiệm t và không tham số?

Đã có một số câu trả lời xuất sắc, nhưng một phản hồi xem xét các lựa chọn thay thế khác để kiểm tra xếp hạng, chẳng hạn như kiểm tra hoán vị, cũng sẽ được hoan nghênh.


2
Tôi nên giải thích "phương pháp chọn bài kiểm tra" có thể là gì - các văn bản giới thiệu thường sử dụng sơ đồ. Đối với dữ liệu chưa ghép, có thể: "1. Sử dụng một số phương pháp để kiểm tra xem cả hai mẫu có được phân phối bình thường không (nếu không đi đến 3), 2. Sử dụng một số phương pháp để kiểm tra các phương sai không bằng nhau: nếu vậy, hãy thực hiện kiểm tra hai mẫu với Hiệu chỉnh của Welch, nếu không, thực hiện mà không sửa. 3. Hãy thử chuyển đổi dữ liệu thành quy tắc (nếu công việc chuyển sang 2 khác chuyển sang 4). 4. Thực hiện kiểm tra U thay thế (có thể sau khi kiểm tra các giả định khác nhau). " Nhưng nhiều bước trong số này có vẻ không đạt yêu cầu đối với n nhỏ, vì tôi hy vọng Q của tôi giải thích!
Cá bạc

2
Câu hỏi thú vị (+1) và một động thái dũng cảm để thiết lập tiền thưởng. Mong chờ một số câu trả lời thú vị. Nhân tiện, những gì tôi thường thấy được áp dụng trong lĩnh vực của mình là một bài kiểm tra hoán vị (thay vì kiểm tra t hoặc Mann-Whitney-Wilcoxon). Tôi đoán nó cũng có thể được coi là một ứng cử viên xứng đáng. Ngoài ra, bạn không bao giờ chỉ định ý của bạn là "cỡ mẫu nhỏ".
amip

1
@Alexis Nhiều cuốn sách cho rằng bài kiểm tra Wilcoxon giả định tính đối xứng về trung vị, ít nhất là nếu kết quả được xem là một tuyên bố về vị trí (một số đề xuất một âm mưu hộp để kiểm tra: xem thảo luận của tôi với câu trả lời của Glen ở trên / Frank Mitchell dưới đây về sự nguy hiểm của đa cấp thủ tục). Ngoài ra, một số nguồn nói rằng Wilcoxon-Mann-Whitney U giả định rằng các bản phân phối nhóm chỉ khác nhau bởi bản dịch (và đề nghị kiểm tra trực quan trên biểu đồ hoặc CDF theo kinh nghiệm). Một sig. Thử nghiệm U có thể là do các phân phối có hình dạng khác nhau ngay cả khi trung vị bằng nhau. Xem thêm các bài viết được trích dẫn trong các bình luận dưới câu trả lời của Frank Harrell.
Cá bạc

3
@Silverfish "nếu kết quả được xem là tuyên bố về vị trí" Đó là một cảnh báo quan trọng, vì các thử nghiệm này là tuyên bố chung nhất về bằng chứng cho H . Việc đưa ra các giả định phân phối bổ sung thu hẹp phạm vi suy luận (ví dụ: các thử nghiệm cho sự khác biệt trung bình), nhưng nói chung không phải là điều kiện tiên quyết cho các thử nghiệm. 0:P(XA>XB)=0.5
Alexis

2
Có thể đáng để khám phá xem lý do "thiếu sót" 95% năng lượng cho Wilcoxon "như thế nào đối với các mẫu nhỏ (một phần phụ thuộc vào cái gì, chính xác, một cái, và nhỏ như thế nào). Ví dụ, nếu bạn vui lòng thực hiện các thử nghiệm ở mức 5,5% thay vì 5%, nếu đó là mức ý nghĩa phù hợp gần nhất có thể đạt được, thì công suất thường có xu hướng giữ khá tốt. Tất nhiên một lần có thể - ở giai đoạn "tính toán năng lượng" trước khi bạn thu thập dữ liệu - tìm hiểu xem tình huống có thể xảy ra và hiểu được các tính chất của Wilcoxon ở kích thước mẫu bạn đang xem xét.
Glen_b

Câu trả lời:


67

Tôi sẽ thay đổi thứ tự câu hỏi về.

Tôi đã tìm thấy sách giáo khoa và ghi chú bài giảng thường không đồng ý, và muốn một hệ thống hoạt động thông qua lựa chọn có thể được đề xuất một cách an toàn là thực tiễn tốt nhất, và đặc biệt là sách giáo khoa hoặc giấy có thể được trích dẫn.

Thật không may, một số cuộc thảo luận về vấn đề này trong sách và như vậy dựa vào sự khôn ngoan nhận được. Đôi khi sự khôn ngoan nhận được là hợp lý, đôi khi nó ít hơn (ít nhất theo nghĩa là nó có xu hướng tập trung vào một vấn đề nhỏ hơn khi một vấn đề lớn hơn bị bỏ qua); chúng ta nên kiểm tra những lời biện minh được đưa ra cho lời khuyên (nếu có bất kỳ lời biện minh nào được đưa ra) một cách cẩn thận.

Hầu hết các hướng dẫn để chọn một bài kiểm tra t hoặc kiểm tra không tham số tập trung vào vấn đề quy tắc.

Điều đó đúng, nhưng nó hơi sai lầm vì một số lý do mà tôi giải quyết trong câu trả lời này.

Nếu thực hiện phép thử t "mẫu không liên quan" hoặc "không ghép đôi", có nên sử dụng hiệu chỉnh tiếng Wales không?

Điều này (để sử dụng nó trừ khi bạn có lý do để nghĩ rằng phương sai nên bằng nhau) là lời khuyên của nhiều tài liệu tham khảo. Tôi chỉ ra một số trong câu trả lời này.

Một số người sử dụng một bài kiểm tra giả thuyết cho sự bình đẳng của phương sai, nhưng ở đây nó sẽ có sức mạnh thấp. Nói chung, tôi chỉ biết liệu các SD mẫu có "gần" hợp lý hay không (điều này hơi chủ quan, do đó phải có cách làm nguyên tắc hơn) nhưng một lần nữa, với mức độ thấp thì có thể là SD dân số còn hơn thế ngoài những mẫu.

Có an toàn hơn không khi chỉ sử dụng hiệu chỉnh tiếng Wales cho các mẫu nhỏ, trừ khi có một số lý do chính đáng để tin rằng phương sai dân số là như nhau? Đó là những lời khuyên. Các thuộc tính của các thử nghiệm bị ảnh hưởng bởi sự lựa chọn dựa trên thử nghiệm giả định.

Một số tài liệu tham khảo về điều này có thể được nhìn thấy ở đâyở đây , mặc dù có nhiều điều nói lên những điều tương tự.

Vấn đề phương sai bằng nhau có nhiều đặc điểm tương tự như vấn đề quy tắc - mọi người muốn kiểm tra nó, lời khuyên cho thấy sự lựa chọn kiểm tra điều kiện đối với kết quả xét nghiệm có thể ảnh hưởng xấu đến kết quả của cả hai loại thử nghiệm tiếp theo - tốt hơn hết là đừng giả sử điều gì bạn không thể biện minh đầy đủ (bằng cách suy luận về dữ liệu, sử dụng thông tin từ các nghiên cứu khác liên quan đến các biến tương tự, v.v.).

Tuy nhiên, có sự khác biệt. Một là - ít nhất là về mặt phân phối thống kê kiểm tra theo giả thuyết khống (và do đó, mức độ mạnh mẽ của nó) - tính phi quy tắc ít quan trọng hơn trong các mẫu lớn (ít nhất là về mức độ quan trọng, mặc dù sức mạnh có thể vẫn là một vấn đề nếu bạn cần tìm các hiệu ứng nhỏ), trong khi hiệu ứng của các phương sai không bằng nhau theo giả định phương sai bằng nhau không thực sự biến mất với cỡ mẫu lớn.

Phương pháp nguyên tắc nào có thể được khuyến nghị để chọn thử nghiệm nào là phù hợp nhất khi cỡ mẫu "nhỏ"?

Với các bài kiểm tra giả thuyết, điều quan trọng (trong một số điều kiện) chủ yếu là hai điều:

  • Tỷ lệ lỗi loại I thực tế là gì?

  • Hành vi quyền lực như thế nào?

Chúng ta cũng cần lưu ý rằng nếu chúng ta so sánh hai quy trình, thay đổi quy trình đầu tiên sẽ thay đổi quy trình thứ hai (nghĩa là nếu chúng không được tiến hành ở cùng mức ý nghĩa thực tế, bạn sẽ mong đợi rằng cao hơn có liên quan đến công suất cao hơn).α

Với các vấn đề mẫu nhỏ này, liệu có một danh sách kiểm tra tốt - hy vọng có thể thực hiện được để giải quyết khi quyết định giữa các xét nghiệm t và không tham số không?

Tôi sẽ xem xét một số tình huống trong đó tôi sẽ đưa ra một số khuyến nghị, xem xét cả khả năng của các phương sai không bình thường và không đồng đều. Trong mọi trường hợp, hãy đề cập đến bài kiểm tra t để ám chỉ bài kiểm tra tiếng Wales:

  • n vừa

Không bình thường (hoặc không xác định), có khả năng có phương sai gần bằng nhau:

Nếu bản phân phối có đuôi nặng, nhìn chung bạn sẽ tốt hơn với Mann-Whitney, mặc dù nếu nó chỉ hơi nặng, bài kiểm tra t sẽ không sao. Với đuôi nhẹ, thử nghiệm t có thể (thường) được ưu tiên. Kiểm tra hoán vị là một lựa chọn tốt (thậm chí bạn có thể thực hiện kiểm tra hoán vị bằng cách sử dụng thống kê t nếu bạn quá nghiêng). Thử nghiệm Bootstrap cũng phù hợp.

Không bình thường (hoặc không xác định), phương sai không bằng nhau (hoặc mối quan hệ phương sai không xác định):

Nếu phân phối có đuôi nặng, nhìn chung bạn sẽ tốt hơn với Mann-Whitney - nếu bất bình đẳng về phương sai chỉ liên quan đến bất bình đẳng về giá trị trung bình - tức là nếu H0 đúng thì sự khác biệt về chênh lệch cũng sẽ không có. GLM thường là một lựa chọn tốt, đặc biệt là nếu độ lệch và độ lây lan có liên quan đến giá trị trung bình. Một bài kiểm tra hoán vị là một lựa chọn khác, với một cảnh báo tương tự như đối với các bài kiểm tra dựa trên xếp hạng. Thử nghiệm Bootstrap là một khả năng tốt ở đây.

Zimmerman và Zumbo (1993) đề xuất một bài kiểm tra tiếng Wales trên hàng ngũ mà họ nói thực hiện tốt hơn rằng Wilcoxon-Mann-Whitney trong trường hợp phương sai không bằng nhau.[1]

  • n nhỏ vừa phải

kiểm tra xếp hạng là mặc định hợp lý ở đây nếu bạn mong đợi tính phi quy tắc (một lần nữa với cảnh báo ở trên). Nếu bạn có thông tin bên ngoài về hình dạng hoặc phương sai, bạn có thể xem xét GLM. Nếu bạn mong đợi mọi thứ không quá xa so với bình thường, các bài kiểm tra t có thể ổn.

  • n rất nhỏ

Do vấn đề nhận được mức ý nghĩa phù hợp, cả kiểm tra hoán vị và kiểm tra xếp hạng đều không phù hợp và ở kích thước nhỏ nhất, kiểm tra t có thể là lựa chọn tốt nhất (có khả năng tăng cường nhẹ). Tuy nhiên, có một lý lẽ tốt cho việc sử dụng tỷ lệ lỗi loại I cao hơn với các mẫu nhỏ (nếu không, bạn sẽ để tỷ lệ lỗi loại II tăng cao trong khi vẫn giữ tỷ lệ lỗi loại I không đổi). Cũng xem de Winter (2013) .[2]

Lời khuyên phải được sửa đổi phần nào khi các bản phân phối bị lệch mạnh và rất rời rạc, chẳng hạn như các mục tỷ lệ Likert trong đó hầu hết các quan sát đều thuộc một trong các loại kết thúc. Sau đó, Wilcoxon-Mann-Whitney không nhất thiết phải là lựa chọn tốt hơn thử nghiệm t.

Mô phỏng có thể giúp hướng dẫn các lựa chọn hơn nữa khi bạn có một số thông tin về các trường hợp có thể xảy ra.

Tôi đánh giá cao đây là một chủ đề lâu năm, nhưng hầu hết các câu hỏi liên quan đến bộ dữ liệu cụ thể của người hỏi, đôi khi là một cuộc thảo luận chung hơn về quyền lực và đôi khi phải làm gì nếu hai bài kiểm tra không đồng ý, nhưng tôi muốn có một quy trình để chọn bài kiểm tra chính xác trong nơi đầu tiên!

Vấn đề chính là khó kiểm tra giả định tính quy tắc trong một tập dữ liệu nhỏ:

Đó khó khăn để kiểm tra trạng thái bình thường trong một tập dữ liệu nhỏ, và trong chừng mực nào đó là một vấn đề quan trọng, nhưng tôi nghĩ rằng có một vấn đề có tầm quan trọng mà chúng ta cần phải xem xét. Một vấn đề cơ bản là việc cố gắng đánh giá tính quy tắc như là cơ sở của việc lựa chọn giữa các thử nghiệm ảnh hưởng xấu đến các tính chất của các thử nghiệm mà bạn chọn giữa.

Bất kỳ thử nghiệm chính thức nào cho tính quy tắc sẽ có sức mạnh thấp để vi phạm có thể không bị phát hiện. (Cá nhân tôi sẽ không kiểm tra cho mục đích này và rõ ràng tôi không đơn độc, nhưng tôi đã tìm thấy cách sử dụng ít ỏi này khi khách hàng yêu cầu kiểm tra tính bình thường được thực hiện bởi vì đó là những gì sách giáo khoa hoặc ghi chú bài giảng cũ hoặc một số trang web họ đã tìm thấy một lần tuyên bố nên được thực hiện. Đây là một điểm mà một trích dẫn có vẻ nặng hơn sẽ được chào đón.)

Đây là một ví dụ về một tài liệu tham khảo (có những tài liệu khác) không rõ ràng (Fay và Proschan, 2010 ):[3]

Sự lựa chọn giữa t- và WMW DR không nên dựa trên một bài kiểm tra về tính quy tắc.

Họ tương tự nhau không rõ ràng về việc không kiểm tra sự bình đẳng của phương sai.

Để làm cho vấn đề tồi tệ hơn, không an toàn khi sử dụng Định lý giới hạn trung tâm làm mạng lưới an toàn: đối với n nhỏ, chúng ta không thể dựa vào tính quy phạm tiệm cận thuận tiện của phân phối thống kê và kiểm tra t.

Ngay cả trong các mẫu lớn - tính quy tắc tiệm cận của tử số không ngụ ý rằng thống kê t sẽ có phân phối t. Tuy nhiên, điều đó có thể không quan trọng lắm, vì bạn vẫn nên có sự bình thường tiệm cận (ví dụ CLT cho tử số và định lý của Slutsky cho thấy rằng cuối cùng, thống kê t sẽ bắt đầu trông bình thường, nếu điều kiện cho cả hai giữ.)

Một phản ứng nguyên tắc cho vấn đề này là "an toàn trước hết": vì không có cách nào để xác minh một cách đáng tin cậy giả định quy tắc trên một mẫu nhỏ, thay vào đó hãy chạy thử nghiệm không tham số tương đương.

Đó thực sự là lời khuyên mà các tài liệu tham khảo mà tôi đề cập (hoặc liên kết đến đề cập đến) đưa ra.

Một cách tiếp cận khác mà tôi đã thấy nhưng cảm thấy ít thoải mái hơn, đó là thực hiện kiểm tra trực quan và tiến hành kiểm tra t nếu không quan sát thấy điều gì ("không có lý do gì để từ chối tính bình thường", bỏ qua sức mạnh thấp của kiểm tra này). Xu hướng cá nhân của tôi là xem xét liệu có bất kỳ căn cứ nào để giả định tính quy phạm hay không, theo lý thuyết (ví dụ biến là tổng của một số thành phần ngẫu nhiên và áp dụng CLT) hoặc theo kinh nghiệm (ví dụ: các nghiên cứu trước đây với biến n đề xuất lớn hơn là bình thường).

Cả hai đều là những lý lẽ tốt, đặc biệt là khi được hỗ trợ với thực tế là bài kiểm tra t có sức mạnh hợp lý chống lại độ lệch vừa phải so với tính quy tắc. (Tuy nhiên, bạn nên nhớ rằng "độ lệch vừa phải" là một cụm từ khó hiểu; một số loại sai lệch so với tính quy tắc có thể ảnh hưởng đến hiệu suất của phép thử t khá nhiều mặc dù những độ lệch đó rất nhỏ - t- kiểm tra ít mạnh mẽ hơn đối với một số sai lệch so với các sai lệch khác. Chúng ta nên ghi nhớ điều này bất cứ khi nào chúng ta thảo luận về những sai lệch nhỏ so với tính quy tắc.)

Cẩn thận, tuy nhiên, cụm từ "đề nghị biến là bình thường". Hợp lý phù hợp với tính quy tắc không giống như tính quy tắc. Chúng ta thường có thể từ chối tính quy tắc thực tế mà không cần phải xem dữ liệu - ví dụ: nếu dữ liệu không thể âm, phân phối không thể bình thường. May mắn thay, những gì quan trọng gần với những gì chúng ta thực sự có thể có từ các nghiên cứu trước đây hoặc lý do về cách dữ liệu được tạo ra, đó là sự sai lệch so với tính quy tắc nên nhỏ.

Nếu vậy, tôi sẽ sử dụng kiểm tra t nếu dữ liệu vượt qua kiểm tra trực quan và nếu không thì dính vào phi tham số. Nhưng bất kỳ cơ sở lý thuyết hoặc thực nghiệm nào thường chỉ biện minh cho việc giả định tính chuẩn tắc gần đúng và ở mức độ tự do thấp, thật khó để đánh giá mức độ gần như bình thường cần thiết để tránh làm mất hiệu lực bài kiểm tra t.

Chà, đó là thứ chúng ta có thể đánh giá tác động của khá dễ dàng (chẳng hạn như thông qua mô phỏng, như tôi đã đề cập trước đó). Từ những gì tôi đã thấy, sự sai lệch dường như quan trọng hơn những cái đuôi nặng nề (nhưng mặt khác tôi đã thấy một số tuyên bố ngược lại - mặc dù tôi không biết đó là gì dựa trên).

Đối với những người coi việc lựa chọn phương pháp là sự đánh đổi giữa sức mạnh và sự mạnh mẽ, tuyên bố về hiệu quả tiệm cận của các phương pháp không tham số là không có ích. Chẳng hạn, quy tắc ngón tay cái "Các xét nghiệm Wilcoxon có khoảng 95% sức mạnh của kiểm tra t nếu dữ liệu thực sự bình thường và thường mạnh hơn rất nhiều nếu dữ liệu không, vì vậy đôi khi chỉ cần sử dụng Wilcoxon" nghe, nhưng nếu 95% chỉ áp dụng cho n lớn, đây là lý do thiếu sót cho các mẫu nhỏ hơn.

Nhưng chúng ta có thể kiểm tra năng lượng mẫu nhỏ khá dễ dàng! Thật dễ dàng để mô phỏng để có được các đường cong sức mạnh như ở đây .
(Một lần nữa, cũng xem de Winter (2013) ).[2]

Đã thực hiện các mô phỏng như vậy trong nhiều trường hợp, cho cả hai trường hợp khác nhau giữa hai mẫu và một mẫu / cặp, hiệu suất mẫu nhỏ ở mức bình thường trong cả hai trường hợp dường như thấp hơn một chút so với hiệu quả tiệm cận, nhưng hiệu quả của thứ hạng đã ký và các xét nghiệm Wilcoxon-Mann-Whitney vẫn còn rất cao ngay cả ở cỡ mẫu rất nhỏ.

Ít nhất là nếu các bài kiểm tra được thực hiện ở cùng mức ý nghĩa thực tế; bạn không thể thực hiện bài kiểm tra 5% với các mẫu rất nhỏ (và ít nhất là không có các bài kiểm tra ngẫu nhiên chẳng hạn), nhưng nếu bạn chuẩn bị có thể thực hiện (giả sử) một bài kiểm tra 5,5% hoặc 3,2%, thì bài kiểm tra xếp hạng giữ rất tốt thực sự so với một bài kiểm tra t ở mức ý nghĩa đó.

Các mẫu nhỏ có thể làm cho rất khó, hoặc không thể, để đánh giá liệu một phép biến đổi có phù hợp với dữ liệu hay không vì khó có thể biết liệu dữ liệu được chuyển đổi có thuộc phân phối chuẩn (đủ) hay không. Vì vậy, nếu một âm mưu QQ tiết lộ dữ liệu sai lệch rất tích cực, có vẻ hợp lý hơn sau khi ghi nhật ký, liệu có an toàn khi sử dụng kiểm tra t trên dữ liệu đã ghi không? Trên các mẫu lớn hơn, điều này sẽ rất hấp dẫn, nhưng với số lượng nhỏ tôi có thể sẽ trì hoãn trừ khi có cơ sở để mong đợi phân phối log-log bình thường ở nơi đầu tiên.

Có một cách khác: đưa ra một giả định tham số khác. Ví dụ: nếu có dữ liệu bị sai lệch, ví dụ, trong một số trường hợp, người ta có thể coi phân phối gamma hoặc một số họ bị lệch khác là xấp xỉ tốt hơn - trong các mẫu lớn vừa phải, chúng ta có thể chỉ sử dụng GLM, nhưng trong các mẫu rất nhỏ có thể cần phải xem xét một thử nghiệm mẫu nhỏ - trong nhiều trường hợp mô phỏng có thể hữu ích.

Giải pháp thay thế 2: tăng cường kiểm tra t (nhưng chú ý đến việc lựa chọn quy trình mạnh để không làm phân biệt quá nhiều phân phối kết quả của thống kê kiểm tra) - điều này có một số lợi thế so với quy trình không tham số mẫu rất nhỏ như khả năng để xem xét các thử nghiệm với tỷ lệ lỗi loại I thấp.

Ở đây tôi đang suy nghĩ về việc sử dụng các công cụ ước tính M về vị trí (và các công cụ ước tính tỷ lệ có liên quan) trong thống kê t để củng cố một cách trơn tru chống lại sự sai lệch so với tính chuẩn. Một cái gì đó giống với người xứ Wales, như:

xySp

trong đó và , v.v ... là những ước tính mạnh mẽ về vị trí và tỷ lệ tương ứng.Sp2=sx2nx+sy2nyxsx

Tôi muốn giảm bớt bất kỳ xu hướng thống kê nào về sự không thống nhất - vì vậy tôi sẽ tránh những thứ như cắt xén và Winsorizing, vì nếu dữ liệu gốc bị rời rạc, việc cắt xén v.v ... sẽ làm trầm trọng thêm điều này; bằng cách sử dụng các cách tiếp cận loại ước lượng M với chức năng trơn tru, bạn sẽ đạt được các hiệu ứng tương tự mà không đóng góp vào sự không thống nhất. Hãy nhớ rằng chúng tôi đang cố gắng xử lý tình huống thực sự rất nhỏ (khoảng 3-5, trong mỗi mẫu, giả sử), do đó, ngay cả ước lượng M cũng có khả năng có vấn đề.ψn

Ví dụ, bạn có thể sử dụng mô phỏng ở mức bình thường để nhận giá trị p (nếu kích thước mẫu rất nhỏ, tôi khuyên bạn nên khởi động quá mức - nếu kích thước mẫu không quá nhỏ, bootstrap được triển khai cẩn thận có thể hoạt động khá tốt , nhưng sau đó chúng tôi cũng có thể quay trở lại Wilcoxon-Mann-Whitney). Có một yếu tố tỷ lệ cũng như điều chỉnh df để đạt được những gì tôi tưởng tượng sau đó sẽ là một xấp xỉ t hợp lý. Điều này có nghĩa là chúng ta sẽ có được loại tài sản mà chúng ta tìm kiếm rất gần với bình thường và nên có độ mạnh hợp lý trong vùng lân cận rộng của bình thường. Có một số vấn đề được đưa ra ngoài phạm vi của câu hỏi hiện tại, nhưng tôi nghĩ trong các mẫu rất nhỏ, lợi ích sẽ vượt xa chi phí và cần thêm nỗ lực.

[Tôi đã không đọc tài liệu về công cụ này trong một thời gian dài, vì vậy tôi không có tài liệu tham khảo phù hợp để cung cấp về điểm số đó.]

Tất nhiên, nếu bạn không mong đợi phân phối có phần giống như bình thường, nhưng tương tự như một số phân phối khác, bạn có thể thực hiện một sự củng cố phù hợp của một thử nghiệm tham số khác.

Điều gì xảy ra nếu bạn muốn kiểm tra các giả định cho các thông số không tham số? Một số nguồn khuyến nghị xác minh phân phối đối xứng trước khi áp dụng thử nghiệm Wilcoxon, đưa ra các vấn đề tương tự để kiểm tra tính quy tắc.

Indeed. I assume you mean the signed rank test*. In the case of using it on paired data, if you are prepared to assume that the two distributions are the same shape apart from location shift you are safe, since the differences should then be symmetric. Actually, we don't even need that much; for the test to work you need symmetry under the null; it's not required under the alternative (e.g. consider a paired situation with identically-shaped right skewed continuous distributions on the positive half-line, where the scales differ under the alternative but not under the null; the signed rank test should work essentially as expected in that case). The interpretation of the test is easier if the alternative is a location shift though.

* (Tên của Wilcoxon được liên kết với cả hai và hai bài kiểm tra xếp hạng mẫu - thứ hạng và tổng thứ hạng đã ký; với bài kiểm tra U của họ, Mann và Whitney đã khái quát tình huống được nghiên cứu bởi Wilcoxon và đưa ra những ý tưởng mới quan trọng để đánh giá phân phối null, nhưng ưu tiên giữa hai nhóm tác giả trên Wilcoxon-Mann-Whitney rõ ràng là của Wilcoxon - vì vậy ít nhất nếu chúng ta chỉ xem xét Wilcoxon vs Mann & Whitney, Wilcoxon lại đi đầu trong cuốn sách của tôi. Tuy nhiên, dường như Luật Stigler lại đánh bại tôi và Wilcox có lẽ nên chia sẻ một số ưu tiên đó với một số người đóng góp trước đó và (ngoài Mann và Whitney) nên chia sẻ tín dụng với một số người phát hiện ra một bài kiểm tra tương đương. [4] [5])

Người giới thiệu

[1]: Zimmerman DW và Zumbo BN, (1993),
Biến đổi thứ hạng và sức mạnh của bài kiểm tra sinh viên và bài kiểm tra tiếng Wales đối với dân số không bình thường,
Tâm lý học thực nghiệm Tạp chí Canada, 47 : 523 .39.

[2]: JCF de Winter (2013),
"Sử dụng bài kiểm tra t của Học sinh với cỡ mẫu cực nhỏ"
, Đánh giá thực tế, Nghiên cứu và Đánh giá , 18 : 10, Tháng 8, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay và Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney hay t-test? Về các giả định cho các bài kiểm tra giả thuyết và nhiều cách hiểu về các quy tắc quyết định",
Stat Surv ; 4 : 1 Từ39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW và Johnston, JE (2012),
"Bài kiểm tra tổng xếp hạng hai mẫu: Phát triển sớm",
Tạp chí điện tử về lịch sử xác suất và thống kê , số 8, tháng 12
pdf

[5]: Kruskal, WH (1957),
"Ghi chú lịch sử về Wilcoxon đã thử nghiệm hai mẫu thử nghiệm",
Tạp chí của Hiệp hội Thống kê Hoa Kỳ , 52 , 353360360.


Một vài điều tôi muốn làm rõ. Có một số điểm mà bạn đề cập, ví dụ: "Nếu phân phối bị đuôi nặng, ..." (hoặc bị sai lệch, v.v.) - có lẽ nên đọc là "nếu hợp lý khi cho rằng phân phối sẽ có đuôi nặng" (theo lý thuyết / các nghiên cứu trước đây / bất cứ điều gì) thay vì "nếu mẫu bị nặng đuôi", nếu không, chúng tôi sẽ quay lại thử nghiệm nhiều bước một lần nữa, đó là điều chúng tôi đang cố gắng tránh? (Dường như với tôi, một vấn đề trung tâm trong chủ đề này là làm thế nào để biện minh cho niềm tin hoặc giả định về phân phối, mà không đọc quá nhiều vào mẫu.)
Silverfish

Đúng, điều đó nên được hiểu là "dân số được biết đến là đuôi nặng, hoặc có thể dự kiến ​​hợp lý là đuôi nặng". Điều đó chắc chắn bao gồm những thứ như lý thuyết (hoặc đôi khi thậm chí là lý luận chung về tình huống không hoàn toàn đạt đến trạng thái của lý thuyết ), kiến ​​thức chuyên môn và các nghiên cứu trước đây. Đó không phải là đề xuất thử nghiệm cho tình trạng đuôi nặng. Trong những tình huống đơn giản là không biết, có thể đáng để điều tra xem những điều tồi tệ có thể xảy ra như thế nào theo các bản phân phối khác nhau có thể hợp lý cho tình huống cụ thể mà bạn có.
Glen_b

Bất kỳ cơ hội nào mà câu trả lời đã xuất sắc này có thể kết hợp chi tiết hơn một chút về các tùy chọn có thể có để "củng cố" bài kiểm tra t?
Cá bạc

Cá bạc - Tôi không chắc chắn nếu tôi giải quyết đầy đủ câu hỏi của bạn yêu cầu chi tiết về việc tăng cường. Tôi sẽ thêm một chút nữa bây giờ.
Glen_b

Rất cám ơn cho sự bổ sung, tôi nghĩ rằng đã thêm rất nhiều vào chất lượng của câu trả lời này. Bây giờ câu hỏi này đã ổn định một chút và tạo ra một loạt các câu trả lời tốt, tôi muốn cung cấp cho câu hỏi ban đầu một bản chỉnh sửa tốt và xóa bất kỳ điều gì có thể gây hiểu lầm (vì lợi ích của những độc giả không đọc qua câu hỏi!). Có ổn không khi tôi làm như vậy để tôi thực hiện các chỉnh sửa phù hợp với câu trả lời của bạn để trích dẫn phù hợp với câu hỏi được sắp xếp lại?
Cá bạc

22

YktP

Đặt tất cả những điều này lại với nhau, một số hướng dẫn được đề xuất như sau:

  1. Nếu không có lý do thuyết phục nào để giả sử phân phối Gaussian trước khi kiểm tra dữ liệu và không cần điều chỉnh đồng biến, hãy sử dụng phép thử không tham số.
  2. Nếu cần điều chỉnh đồng biến, hãy sử dụng tổng quát hóa hồi quy bán tổng thể của bài kiểm tra xếp hạng mà bạn thích. Đối với bài kiểm tra Wilcoxon, đây là mô hình tỷ lệ cược tỷ lệ và đối với bài kiểm tra điểm bình thường, đây là hồi quy thứ tự probit.

t3πY

kkloglogmô hình thứ tự xác suất tích lũy liên kết các phân phối được giả định là trong các mối nguy theo tỷ lệ. Đối với mô hình xác suất tích lũy liên kết logit (mô hình tỷ lệ cược tỷ lệ), các phân phối được giả định được kết nối bởi các giả định tỷ lệ cược tỷ lệ, nghĩa là các log của các hàm phân phối tích lũy là song song. Hình dạng của một trong những bản phân phối là không liên quan. Thông tin chi tiết có thể được tìm thấy trong http://biostat.mc.vanderbilt.edu/C thuyếtBios330 trong Chương 15 của Handouts.

Có hai loại giả định của phương pháp thống kê thường xuyên được xem xét thường xuyên. Đầu tiên là các giả định cần thiết để làm cho phương thức bảo toàn lỗi loại I. Thứ hai liên quan đến bảo quản lỗi loại II (tối ưu; độ nhạy). Tôi tin rằng cách tốt nhất để đưa ra các giả định cần thiết cho lần thứ hai là nhúng một bài kiểm tra không tham số trong một mô hình bán tổng thể như được thực hiện ở trên. Kết nối thực tế giữa hai người là từ các bài kiểm tra điểm hiệu quả Rao phát sinh từ mô hình bán đảo. Tử số của bài kiểm tra điểm từ mô hình tỷ lệ cược cho trường hợp hai mẫu chính xác là thống kê tổng xếp hạng.


1
Cảm ơn vì điều này, tôi rất đồng cảm với triết lý của câu trả lời này - ví dụ, rất nhiều nguồn đề nghị tôi ít nhất nên kiểm tra dữ liệu nhãn cầu về tính quy phạm trước khi quyết định kiểm tra. Nhưng loại thủ tục nhiều bước này rõ ràng, mặc dù tinh tế, ảnh hưởng đến cách các bài kiểm tra hoạt động.
Cá bạc

1
nn=15

3
10000p

4
Kiểm tra hoán vị là cách để kiểm soát lỗi loại I nhưng không xử lý lỗi loại II. Một thử nghiệm hoán vị dựa trên số liệu thống kê dưới mức tối ưu (ví dụ: trung bình và phương sai thông thường khi dữ liệu đến từ phân phối log-Gaussian) sẽ bị ảnh hưởng về mặt sức mạnh.
Frank Harrell

3
Có Chương 15 trong Bản phát hành được mở rộng thành một chương mới trong phiên bản thứ 2 sắp tới của cuốn sách mà tôi sẽ gửi cho nhà xuất bản vào tháng tới.
Frank Harrell

13

Rand Wilcox trong các ấn phẩm và sách của mình đưa ra một số điểm rất quan trọng, nhiều trong số đó đã được Frank Harrell và Glen_b liệt kê trong các bài viết trước đó.

  1. Giá trị trung bình không nhất thiết là số lượng chúng tôi muốn đưa ra suy luận. Có thể các đại lượng khác thể hiện tốt hơn một quan sát điển hình .
  2. Đối với các bài kiểm tra t, công suất có thể thấp ngay cả đối với các lần khởi hành nhỏ từ quy tắc.
  3. Đối với các thử nghiệm t, phạm vi xác suất quan sát có thể khác biệt đáng kể so với danh nghĩa.

Một số gợi ý chính là:

  1. Một giải pháp thay thế mạnh mẽ là so sánh các phương tiện được cắt xén hoặc các công cụ ước tính M sử dụng phép thử t. Wilcox gợi ý 20% phương tiện cắt tỉa.
  2. Các phương pháp khả năng thực nghiệm có lợi hơn về mặt lý thuyết ( Owen, 2001 ) nhưng không nhất thiết phải như vậy đối với n trung bình đến nhỏ.
  3. Kiểm tra hoán vị là rất tốt nếu một người cần kiểm soát lỗi Loại I, nhưng người ta không thể nhận được CI.
  4. Đối với nhiều tình huống, Wilcox đề xuất bootstrap-t để so sánh các phương tiện được cắt xén. Trong R, điều này được thực hiện trong các hàm yuenbt , yhbt trong gói WRS .
  5. Bootstrap phần trăm có thể tốt hơn so với phần trăm-t khi lượng cắt tỉa là> / = 20%. Trong R, điều này được thực hiện trong hàm pb2gen trong gói WRS đã nói ở trên .

Hai tài liệu tham khảo tốt là Wilcox ( 2010 ) và Wilcox ( 2012 ).


8

Bradley, trong tác phẩm Các thử nghiệm thống kê không phân phối (năm 1968, trang 17 dao24) , mang đến mười ba sự tương phản giữa những gì ông gọi là các thử nghiệm "cổ điển" và "không phân phối". Lưu ý rằng Bradley phân biệt giữa "không tham số" và "không phân phối", nhưng đối với mục đích câu hỏi của bạn, sự khác biệt này không liên quan. Bao gồm trong mười ba là những yếu tố không chỉ liên quan đến derivatinos của các xét nghiệm, mà cả các ứng dụng của chúng. Bao gồm các:

  • Lựa chọn mức ý nghĩa: Các xét nghiệm cổ điển có mức ý nghĩa liên tục; các thử nghiệm không phân phối thường có các quan sát riêng biệt về các mức ý nghĩa, vì vậy các thử nghiệm cổ điển mang lại sự linh hoạt hơn trong việc thiết lập mức độ nói trên.
  • Tính hợp lệ hợp lý của vùng loại bỏ: Vùng loại bỏ thử nghiệm không phân phối có thể dễ hiểu hơn bằng trực giác (không nhất thiết phải trơn tru hoặc liên tục) và có thể gây nhầm lẫn khi thử nghiệm nên được coi là đã từ chối giả thuyết khống.
  • Loại thống kê có thể kiểm tra được: Để trích dẫn trực tiếp Bradley: "Số liệu thống kê được xác định theo thuật ngữ tính toán dựa trên cường độ quan sát có thể được kiểm tra bằng các kỹ thuật cổ điển, có thể kiểm tra các số liệu được xác định bằng mối quan hệ thứ tự (thứ hạng) hoặc tần số danh mục, v.v. Phương pháp không phân phối. Phương tiện và phương sai là ví dụ về phạm vi trước và trung bình và phạm vi liên mã, của phương pháp sau. "Đặc biệt khi xử lý các phân phối không bình thường, khả năng kiểm tra các số liệu thống kê khác trở nên có giá trị, cho vay đối với các thử nghiệm không phân phối .
  • Khả năng kiểm tra các tương tác bậc cao: Dễ dàng hơn nhiều trong các thử nghiệm cổ điển so với các thử nghiệm không phân phối.
  • Ảnh hưởng của cỡ mẫu:Đây là một điều khá quan trọng theo ý kiến ​​của tôi. Khi kích thước mẫu nhỏ (Bradley nói khoảng n = 10), có thể rất khó xác định liệu các giả định tham số trong các thử nghiệm cổ điển có bị vi phạm hay không. Các thử nghiệm không phân phối không có các giả định này bị vi phạm. Hơn nữa, ngay cả khi các giả định chưa bị vi phạm, các thử nghiệm không phân phối thường hầu như dễ áp ​​dụng và gần như hiệu quả của thử nghiệm. Vì vậy, đối với các cỡ mẫu nhỏ (dưới 10, có thể lên tới 30) Bradley ủng hộ một ứng dụng gần như thường xuyên của các xét nghiệm không phân phối. Đối với cỡ mẫu lớn, Định lý giới hạn trung tâm có xu hướng áp đảo các vi phạm tham số trong đó giá trị trung bình mẫu và phương sai mẫu sẽ có xu hướng bình thường, và các xét nghiệm tham số có thể vượt trội về mặt hiệu quả.
  • Phạm vi áp dụng: Bằng cách không phân phối, các thử nghiệm như vậy được áp dụng cho một nhóm dân số lớn hơn nhiều so với các thử nghiệm cổ điển giả định phân phối cụ thể.
  • Khả năng phát hiện vi phạm giả định phân phối liên tục: Dễ thấy trong các thử nghiệm không phân phối (ví dụ: sự tồn tại của điểm số bị ràng buộc), khó hơn trong các thử nghiệm tham số.
  • Ảnh hưởng của vi phạm giả định phân phối liên tục: Nếu giả định bị vi phạm, thử nghiệm trở nên không chính xác. Bradley dành thời gian để giải thích làm thế nào các giới hạn của sự thiếu chính xác có thể được ước tính cho các thử nghiệm không phân phối, nhưng không có thói quen tương tự cho các thử nghiệm cổ điển.

1
Cảm ơn bạn đã trích dẫn! Công việc của Bradley có vẻ khá cũ nên tôi nghi ngờ nó không có nhiều nghiên cứu về mô phỏng hiện đại để so sánh hiệu quả và tỷ lệ lỗi Loại I / II trong các tình huống khác nhau? Tôi cũng quan tâm đến những gì anh ấy gợi ý về các bài kiểm tra của Brunner-Munzel - chúng có nên được sử dụng thay cho bài kiểm tra U nếu phương sai trong hai nhóm không được biết là bằng nhau không?
Cá bạc

1
Bradley không thảo luận về hiệu quả, mặc dù hầu hết thời gian, đó là trong bối cảnh hiệu quả tương đối không có triệu chứng. Ông đôi khi đưa ra các nguồn cho các tuyên bố về hiệu quả cỡ mẫu hữu hạn, nhưng vì công việc là từ năm 1968, tôi chắc chắn rằng các phân tích tốt hơn đã được thực hiện kể từ đó. Nói về điều đó, nếu tôi có quyền, Brunner và Munzel đã viết bài báo của họ vào năm 2000 , điều này giải thích tại sao không có đề cập đến nó trong Bradley.
Avraham

Vâng, điều đó thực sự sẽ giải thích nó! :) Bạn có biết nếu có một cuộc khảo sát cập nhật hơn Bradley không?
Cá bạc

Một tìm kiếm ngắn gọn cho thấy có rất nhiều văn bản gần đây về thống kê phi tham số. Ví dụ: Phương pháp thống kê không đối xứng (Hollander et al, 2013), Thử nghiệm giả thuyết không đối xứng: Phương pháp xếp hạng và phép với các ứng dụng trong R (Bonini et al, 2014), Suy luận thống kê không đối xứng, Phiên bản thứ năm (Gibbons và Chakraborti, 2010). Có nhiều cái khác xuất hiện trong các tìm kiếm khác nhau. Vì tôi không có bất kỳ, tôi không thể đưa ra bất kỳ khuyến nghị nào. Lấy làm tiếc.
Avraham

5

Bắt đầu trả lời câu hỏi rất thú vị này.

Đối với dữ liệu không được ghép nối:

Hiệu suất của năm thử nghiệm vị trí hai mẫu cho các phân phối sai lệch với phương sai không bằng nhau của Morten W. Fagerland, Leiv Sandvik (đằng sau paywall) thực hiện một loạt các thử nghiệm với 5 thử nghiệm khác nhau (thử nghiệm t, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney và Brunner-Munzel) cho các kết hợp khác nhau về cỡ mẫu, tỷ lệ mẫu, xuất phát từ tính quy tắc, v.v. Bài báo kết thúc đề nghị Welch U nói chung,

Nhưng phụ lục A của bài viết liệt kê kết quả cho từng tổ hợp cỡ mẫu. Và đối với kích thước mẫu nhỏ (m = 10 n = 10 hoặc 25), kết quả khó hiểu hơn (như mong đợi) - theo ước tính của tôi về kết quả (không phải của tác giả) Welch U, Brunner-Munzel dường như hoạt động tốt như nhau, và kiểm tra t cũng tốt trong trường hợp m = 10 và n = 10.

Đây là những gì tôi biết cho đến nay.

Đối với một giải pháp "nhanh", tôi đã từng trích dẫn Nhận thức của các bác sĩ về tác động của thống kê đối với kết quả nghiên cứu: Sức mạnh so sánh của thử nghiệm t và Thử nghiệm xếp hạng Wilcoxon trong các mẫu nhỏ Nghiên cứu ứng dụng của Patrick D Bridge và Shlomo S Sawilowsky (cũng đứng sau paywall) và đi thẳng đến Wilcoxon bất kể kích thước mẫu, nhưng trống rỗng , ví dụ như chúng ta có nên luôn luôn chọn một thử nghiệm không đối xứng khi so sánh hai phân phối rõ ràng không bình thường không? của Eva Skovlund và Grete U. Fensta .

Tôi chưa tìm thấy bất kỳ kết quả tương tự cho dữ liệu được ghép nối


Tôi đánh giá cao các trích dẫn! Để làm rõ, là "Welch U" đang được nhắc đến, cùng một bài kiểm tra còn được gọi là "Welch t" hoặc "Welch-Aspin t" hoặc (như tôi có lẽ đã gọi nó không đúng trong câu hỏi) "t test với sửa lỗi của Welch" ?
Cá bạc

Theo như tôi hiểu từ bài báo, Welch U không phải là Welch-Aspin thông thường - nó không sử dụng phương trình WelchTHER Satterthwaite cho các bậc tự do, mà là một công thức có sự khác biệt của khối lập phương và bình phương của mẫu kích thước.
Jacques Wainer

Nó vẫn là một thử nghiệm t mặc dù, mặc dù tên của nó? Ở mọi nơi khác tôi tìm kiếm "Welch U" Tôi dường như tìm thấy nó đề cập đến Welch-Aspin, thật là bực bội.
Cá bạc


1

Mô phỏng sự khác biệt về phương tiện của quần thể Gamma

So sánh thử nghiệm t và thử nghiệm Mann Whitney

Tóm tắt kết quả

  • Khi phương sai của hai quần thể là như nhau, thử nghiệm Mann Whitney có sức mạnh thực sự lớn hơn nhưng cũng có lỗi loại 1 thực sự lớn hơn so với thử nghiệm t.
  • H0
  • Khi phương sai của hai quần thể là khác nhau, thì thử nghiệm Mann Whitney dẫn đến lỗi loại 1 lớn, ngay cả khi phương tiện giống nhau. Điều này được mong đợi kể từ khi Mann Whitney kiểm tra sự khác biệt trong phân phối, không phải về phương tiện.
  • Thử nghiệm t là mạnh mẽ đối với sự khác biệt về phương sai nhưng có nghĩa là giống hệt nhau

Thí nghiệm 1) Phương tiện khác nhau, cùng phương sai

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Nguồn:

Phân bố dân số

nhập mô tả hình ảnh ở đây

Kết quả mô phỏng

nhập mô tả hình ảnh ở đây

Thảo luận

  • N=10
  • Đối với tất cả các cỡ mẫu, thử nghiệm Mann Whitney có sức mạnh lớn hơn thử nghiệm t và trong một số trường hợp có hệ số 2
  • Đối với tất cả các cỡ mẫu, thử nghiệm Mann Whitney có lỗi loại I lớn hơn và điều này theo hệ số hoặc 2 - 3
  • kiểm tra t có công suất thấp cho cỡ mẫu nhỏ

Thảo luận : khi phương sai của hai quần thể thực sự giống nhau, thử nghiệm Mann Whitney vượt trội hơn nhiều so với thử nghiệm t về sức mạnh đối với cỡ mẫu nhỏ, nhưng có tỷ lệ lỗi Loại 1 cao hơn


Thí nghiệm 2: Phương sai khác nhau, cùng nghĩa

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Kết quả thảo luận từ mô phỏng cho thấy thử nghiệm t rất mạnh đối với phương sai khác nhau và sai số loại I gần 5% cho tất cả các cỡ mẫu. Như mong đợi, thử nghiệm Mann Whitney hoạt động kém trong trường hợp này vì nó không kiểm tra sự khác biệt về phương tiện mà là sự khác biệt trong phân phối

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.