Khi tiến hành kiểm tra t tại sao người ta lại thích giả sử (hoặc kiểm tra) các phương sai bằng nhau thay vì luôn luôn sử dụng xấp xỉ Welch của df?


47

Có vẻ như khi giả định về tính đồng nhất của phương sai được đáp ứng rằng các kết quả từ phép thử t điều chỉnh tiếng Wales và phép thử t chuẩn là gần như nhau. Tại sao không chỉ đơn giản là luôn luôn sử dụng t điều chỉnh tiếng Wales?

Câu trả lời:


33

Tôi muốn phản đối hai câu trả lời khác dựa trên một bài báo (bằng tiếng Đức) của Kubinger, Rasch và Moder (2009) .

Họ lập luận, dựa trên các mô phỏng "mở rộng" từ các bản phân phối hoặc đáp ứng hoặc không đáp ứng các giả định được áp dụng bởi một phép thử t, (tính quy tắc và tính đồng nhất của phương sai) mà các phép thử Welch thực hiện tốt như nhau khi các giả định được đáp ứng (nghĩa là về cơ bản giống nhau xác suất phạm lỗi alpha và beta) nhưng vượt trội so với thử nghiệm t nếu các giả định không được đáp ứng, đặc biệt là về sức mạnh. Do đó, họ khuyến nghị luôn luôn sử dụng phép thử Welch nếu cỡ mẫu vượt quá 30.

Là một nhận xét meta: Đối với những người quan tâm đến số liệu thống kê (như tôi và có lẽ hầu hết những người khác ở đây), một đối số dựa trên dữ liệu (như của tôi) ít nhất nên được tính bằng nhau như các đối số chỉ dựa trên cơ sở lý thuyết (như những người khác ở đây).


Cập nhật:
Sau khi suy nghĩ về chủ đề này một lần nữa, tôi tìm thấy hai khuyến nghị nữa trong đó đề xuất mới hơn hỗ trợ quan điểm của tôi. Nhìn vào các giấy tờ gốc (cả hai, ít nhất là đối với tôi, có sẵn miễn phí) cho các lập luận dẫn đến các khuyến nghị này.

Đề xuất đầu tiên đến từ Graeme D. Ruxton năm 2006: " Nếu bạn muốn so sánh xu hướng trung tâm của 2 quần thể dựa trên các mẫu dữ liệu không liên quan, thì nên sử dụng thử nghiệm kiểm tra phương sai không đồng đều theo ưu tiên cho kiểm tra t của Sinh viên hoặc Mann-Whitney U thử nghiệm. "
Trong:
Ruxton, GD, 2006. Phương sai không đồng đều t-test là một thay thế underused để t-test Student và kiểm định Mann-Whitney U . Hành vi. Ecol . 17, 688 Quạt690.

Khuyến nghị thứ hai (cũ hơn) là từ Coombs et al. (1996, p 148.): " Nói tóm lại, các thử nghiệm mẫu t độc lập nói chung là chấp nhận được về mặt kiểm soát tỷ lệ lỗi loại I với điều kiện có mẫu kích thước bằng nhau đủ lớn, ngay cả khi bằng giả định sai dân bị vi phạm. Đối với bất bình đẳng Tuy nhiên, sử dụng các thử nghiệm có kích thước thứ hai không đối xứng với các phương sai dân số bằng nhau hoặc bình thường. Các lựa chọn hứa hẹn bao gồm các thử nghiệm có nghĩa là Wilcox H và Yuen được cắt xén kiểm soát tỷ lệ lỗi Loại I rộng hơn so với thử nghiệm tiếng Wales hoặc thử nghiệm James và có sức mạnh lớn hơn khi dữ liệu bị kéo dài. " (nhấn mạnh thêm)
Trong:
Coombs WT, Algina J, Oltman D. 1996. Các thử nghiệm giả thuyết omnibus đơn biến và đa biến được chọn để kiểm soát tỷ lệ lỗi loại I khi phương sai dân số không nhất thiết phải bằng nhau . Rev Giáo dục Res 66: 137 Chân79.


3
Phản hồi meta: Điểm tốt. Nhưng dữ liệu của bạn có thể không hoạt động như của tôi! :-)
whuber

Henrik, bạn có phiền không nếu tôi chỉnh sửa câu trả lời thành: (1) thay đổi thuật ngữ bằng cách gọi các bài kiểm tra Kiểm tra t của sinh viên và kiểm tra t của Welch (như tôi đã tìm thấy trong hầu hết các văn học); (2) bao gồm một bài viết khác gợi ý nó trong cuộc thảo luận: rips-irsp.com/article/10.5334/irsp.82 (nó nhấn mạnh sự thiên vị xảy ra khi bạn chọn các bài kiểm tra dựa trên bài kiểm tra tính đồng nhất của Levene).
Bruno

13

tất nhiên, người ta có thể bỏ qua cả hai bài kiểm tra và bắt đầu sử dụng bài kiểm tra t Bayesian (bài kiểm tra tỷ lệ Savage-Dickey), có thể giải thích cho các phương sai không đồng đều và không bằng nhau, và tốt nhất, nó cho phép định lượng bằng chứng ủng hộ giả thuyết khống (có nghĩa là, không còn nói chuyện "không từ chối" cũ)

Thử nghiệm này rất đơn giản (và nhanh chóng) để thực hiện, và có một bài viết giải thích rõ ràng cho độc giả không quen thuộc với thống kê Bayes về cách sử dụng nó, cùng với một tập lệnh R. về cơ bản bạn chỉ có thể chèn dữ liệu của mình gửi các lệnh đến bảng điều khiển R:

Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Làm thế nào để định lượng sự hỗ trợ cho và chống lại giả thuyết không có thực: Một WinBUGS linh hoạt Thực hiện một bài kiểm tra Bayes mặc định.

cũng có một hướng dẫn cho tất cả điều này, với dữ liệu ví dụ:

http://www.ruudwetzels.com/index.php?src=SDtest

Tôi biết đây không phải là câu trả lời trực tiếp cho những gì được hỏi, nhưng tôi nghĩ độc giả có thể thích có sự thay thế tốt đẹp này

chúc mừng


8
luôn luôn là những kẻ bay bổng này ...
Henrik

3
Một lựa chọn khác của Bayes cho bài kiểm tra t là Kruschke's BEST (ước lượng Bayes thay thế cho bài kiểm tra t). Thêm thông tin ở đây: indiana.edu/~kruschke/BEST . Một phiên bản trực tuyến tại đây: sumsar.net/best_online .
Rasmus Bååth

7

Bởi vì kết quả chính xác là thích hợp hơn cho các xấp xỉ và tránh các trường hợp cạnh lẻ trong đó phép gần đúng có thể dẫn đến một kết quả khác với phương pháp chính xác.

Phương pháp Welch không phải là cách nhanh hơn để thực hiện bất kỳ thử nghiệm t cũ nào, đó là một phép tính gần đúng có thể dễ dàng đối với một vấn đề rất khó: làm thế nào để xây dựng một thử nghiệm t theo phương sai không bằng nhau. Trường hợp phương sai bằng nhau được hiểu rõ, đơn giản và chính xác, và do đó nên luôn luôn được sử dụng khi có thể.


6
Tôi nghĩ rằng tôi có xu hướng đồng ý nhiều hơn với John Tukey - " Một câu trả lời gần đúng cho câu hỏi đúng, thường rất mơ hồ, hơn là một câu trả lời chính xác cho câu hỏi sai, luôn luôn có thể được đưa ra chính xác. "
Glen_b

4
Bản thân bài kiểm tra t phương sai (Sinh viên) chỉ là một xấp xỉ (không hiểu) khi phương sai mẫu dân số không bằng nhau. Do đó, trừ khi người ta biết rằng phương sai dân số là bằng nhau, tốt hơn là sử dụng xấp xỉ với phân phối lấy mẫu chính xác (Welch-Satterthwaite) hơn là sử dụng phân phối chính xác hoàn toàn không áp dụng cho mô hình dữ liệu.
whuber

4

Hai lý do tôi có thể nghĩ ra:

  1. T thường xuyên của sinh viên là khá mạnh mẽ để không đồng nhất nếu kích thước mẫu bằng nhau.

  2. Nếu bạn tin tưởng mạnh mẽ a priori rằng dữ liệu là homoscedastic, sau đó bạn chẳng mất gì và có thể đạt được một lượng nhỏ năng lượng bằng cách sử dụng Studen'ts T thay vì T. Welch

Một lý do mà tôi sẽ không đưa ra là Student T chính xác và T của Welch thì không. IMHO tính chính xác của Student T là học thuật vì nó chỉ chính xác cho dữ liệu được phân phối thông thường và không có dữ liệu thực được phân phối chính xác thông thường. Tôi không thể nghĩ về một số lượng duy nhất mà mọi người thực sự đo lường và phân tích thống kê nơi phân phối có thể có sự hỗ trợ của tất cả các số thực. Ví dụ, chỉ có rất nhiều nguyên tử trong vũ trụ và một số lượng không thể âm. Do đó, khi bạn sử dụng bất kỳ loại kiểm tra T nào trên dữ liệu thực, bạn sẽ thực hiện xấp xỉ bằng mọi cách.


2
(1) không chính xác khi phương sai dân số cơ bản khác nhau rất nhiều. Như một trường hợp cực đoan - để xem tại sao lại như vậy - hãy xem xét điều gì xảy ra khi một dân số không có phương sai nào cả. Học sinh thực tế sẽ so sánh dữ liệu từ dân số khác với một hằng số, nhưng nó sẽ nghĩ rằng nó có mức độ tự do gấp đôi. Lỗi mà nó gây ra sẽ tương đương với việc chỉ sử dụng thử nghiệm Z.
whuber

Trong khi điều này là đúng @whuber thì nó chỉ dành cho những trường hợp rất khắc nghiệt. Tôi chỉ nhìn vào chênh lệch phương sai 1e6: 1 và p .053. Vì vậy, nó có thể xảy ra nhưng tôi vẫn cho rằng nó khá mạnh mẽ bằng với N.
John

ni

@whuber, tôi chỉ đề xuất rằng trong khi nhận xét của bạn ở trên là đúng về mặt kỹ thuật, chỉnh sửa tiếng Wales không phải là giải pháp cho vấn đề bạn đặt ra làm ví dụ và nó thậm chí không thực sự quan trọng về sự mạnh mẽ của bài kiểm tra về tỷ lệ alpha (đó là những gì (1) thường có nghĩa). Như bạn đề xuất, khi phương sai không đồng đều (cực kỳ) là một vấn đề bạn gặp phải các vấn đề khác, nhưng đó thực sự là một chủ đề khác.
John

3

Thực tế là một cái gì đó phức tạp hơn làm giảm đến một cái gì đó ít phức tạp hơn khi một số giả định được kiểm tra là không đủ để loại bỏ phương pháp đơn giản hơn.


4
Đặc biệt là nơi sinh viên quan tâm.
Matt Parker

2

Tôi sẽ có quan điểm ngược lại ở đây. Tại sao phải bận tâm với bài kiểm tra tiếng Wales khi bài kiểm tra sinh viên không ghép đôi tiêu chuẩn cho bạn kết quả gần như giống hệt nhau. Tôi đã nghiên cứu vấn đề này một thời gian trước và tôi đã khám phá một loạt các kịch bản trong một nỗ lực để phá vỡ bài kiểm tra t và ủng hộ bài kiểm tra tiếng Wales. Để làm như vậy, tôi đã sử dụng cỡ mẫu lớn hơn tới 5 lần cho một nhóm so với nhóm khác. Và, tôi đã khám phá phương sai lớn hơn tới 25 lần cho một nhóm so với nhóm kia. Và, nó thực sự không làm cho bất kỳ sự khác biệt vật chất. Thử nghiệm không ghép đôi vẫn tạo ra một loạt các giá trị p gần giống với thử nghiệm tiếng Wales.

Bạn có thể thấy công việc của tôi tại liên kết sau và tập trung đặc biệt vào slide 5 và 6.

http://www.sl slideshoware.net/gaetanlion/un Paired-t-test-f Family


Tôi xin lỗi, bạn đang phân biệt giữa công thức mẫu lớn và công thức mẫu nhỏ? Bạn có đang tính toán phương sai bằng công thức dân số trong các mẫu lớn hơn là sử dụng ước tính mẫu của phương sai dân số không?
russellpierce

Bài kiểm tra t học sinh chưa ghép đôi có hai công thức. Công thức mẫu lớn được áp dụng cho các mẫu có hơn 30 quan sát. Công thức mẫu nhỏ được áp dụng cho các mẫu có ít hơn 30 quan sát. Sự khác biệt chính trong các công thức đó là cách họ tính toán sai số chuẩn gộp. Công thức mẫu nhỏ phức tạp và phản trực giác hơn nhiều. Và, trong thực tế, nó thực sự làm cho rất ít sự khác biệt. Tôi đã thử nghiệm điều đó nhiều lần. Đó là lý do tại sao tôi nghĩ rằng hầu hết mọi người đã quên đi sự khác biệt này. Và, họ sử dụng hầu hết thời gian công thức mẫu lớn.
Sympa

0

Đúng là các thuộc tính thường xuyên của bài kiểm tra sửa lỗi tiếng Wales tốt hơn T của Sinh viên bình thường, ít nhất là đối với các lỗi. Tôi đồng ý rằng một mình đó là một lập luận khá tốt cho bài kiểm tra tiếng Wales. Tuy nhiên, tôi thường miễn cưỡng đề xuất chỉnh sửa tiếng Wales vì ​​việc sử dụng thường là lừa đảo. Đó là, thừa nhận không phải là một bài phê bình của chính bài kiểm tra.

Lý do tôi không khuyến nghị điều chỉnh tiếng Wales là vì nó không chỉ thay đổi mức độ tự do và phân phối lý thuyết tiếp theo mà từ đó giá trị p được rút ra. Nó làm cho bài kiểm tra không tham số. Để thực hiện phép thử t đã được hiệu chỉnh tiếng Wales, người ta vẫn có thể sử dụng phương sai như thể có thể giả sử phương sai bằng nhau nhưng sau đó thay đổi quy trình thử nghiệm cuối cùng có nghĩa là có thể giả sử phương sai bằng nhau hoặc bạn chỉ quan tâm đến phương sai mẫu. Điều này làm cho nó trở thành một thử nghiệm không tham số vì phương sai gộp được coi là không đại diện cho dân số và bạn thừa nhận rằng bạn chỉ đang thử nghiệm các giá trị quan sát của mình.

Trong và của chính nó không có gì đặc biệt sai với điều đó. Tuy nhiên, tôi thấy nó lừa đảo vì a) thông thường nó không được báo cáo với đủ tính cụ thể; và b) những người sử dụng nó có xu hướng nghĩ về nó thay thế cho nhau bằng một bài kiểm tra t. Cách duy nhất tôi từng biết rằng nó đã được thực hiện trong các bài báo được xuất bản là khi tôi thấy một DF kỳ lạ cho phân phối t. Đó cũng là cách duy nhất Rexton (được tham chiếu trong câu trả lời của Henrik) có thể nói trong đánh giá. Thật không may, bản chất không tham số của thử nghiệm sửa lỗi tiếng Wales xảy ra cho dù mức độ tự do có thay đổi hay không (nghĩa là ngay cả khi phương sai mẫu bằng nhau). Nhưng vấn đề báo cáo này là triệu chứng của thực tế là hầu hết những người sử dụng hiệu chỉnh tiếng Wales không nhận ra sự thay đổi này đối với thử nghiệm đã xảy ra.

Do đó, vì điều này, tôi tin rằng nếu bạn muốn đề xuất một thử nghiệm không tham số, đừng sử dụng một thử nghiệm thường xuất hiện tham số hoặc ít nhất là rất rõ ràng về những gì bạn đang làm. Tên chính thức của bài kiểm tra phải là bài kiểm tra T không chính xác của Welch Corrected. Nếu mọi người báo cáo theo cách đó tôi sẽ hạnh phúc hơn nhiều với khuyến nghị của Henrik.


Tôi không thể tìm thấy bất kỳ sự hỗ trợ nào trong câu trả lời của bạn về lý do tại sao bài kiểm tra tiếng Wales có thể là "lừa đảo". Bạn có thể giải thích cơ sở cho điều đó?
whuber

Có lẽ các chỉnh sửa của tôi đã làm rõ những điều @whuber. Tôi nên rõ ràng rằng nó không được đảm bảo là lừa đảo nhưng thường là cho cả người dùng thử nghiệm và người đọc kết quả thử nghiệm.
John

1
Cảm ơn bạn. Ngoài vấn đề báo cáo - sẽ không công bằng khi mô tả là lỗi của bài kiểm tra! - điều này dường như dẫn đến một số phản đối từ phía bạn rằng bài kiểm tra tiếng Wales là không tham số. Điều gì có thể có thể là vấn đề với điều đó? Ceteris paribus , đó phải được coi là một lợi thế, không phải là một vấn đề.
whuber

1
Đó là một sự khác biệt thường không được làm rõ. Tôi thừa nhận trong câu trả lời rằng đó không phải là vấn đề mà hầu hết mọi người có xu hướng coi nó là tham số, đó là một lỗi. Tôi không nghĩ rằng đây là nơi để thảo luận về lợi ích hoặc chi phí của xét nghiệm không tham số. Ngoài ra, nó đã không được đề cập trong chủ đề và nó có thể là một vấn đề đối với nhiều người. Bên cạnh đó, hai trong số các lớp thống kê giới thiệu của chúng tôi dạy nó song song với bài kiểm tra t Student, và quảng bá nó, nhưng có một phần hoàn toàn riêng về các bài kiểm tra không tham số.
Giăng

Bạn có thể làm rõ những gì bạn có nghĩa là "làm cho bài kiểm tra không tham số"?
Glen_b
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.