Có vẻ như khi giả định về tính đồng nhất của phương sai được đáp ứng rằng các kết quả từ phép thử t điều chỉnh tiếng Wales và phép thử t chuẩn là gần như nhau. Tại sao không chỉ đơn giản là luôn luôn sử dụng t điều chỉnh tiếng Wales?
Có vẻ như khi giả định về tính đồng nhất của phương sai được đáp ứng rằng các kết quả từ phép thử t điều chỉnh tiếng Wales và phép thử t chuẩn là gần như nhau. Tại sao không chỉ đơn giản là luôn luôn sử dụng t điều chỉnh tiếng Wales?
Câu trả lời:
Tôi muốn phản đối hai câu trả lời khác dựa trên một bài báo (bằng tiếng Đức) của Kubinger, Rasch và Moder (2009) .
Họ lập luận, dựa trên các mô phỏng "mở rộng" từ các bản phân phối hoặc đáp ứng hoặc không đáp ứng các giả định được áp dụng bởi một phép thử t, (tính quy tắc và tính đồng nhất của phương sai) mà các phép thử Welch thực hiện tốt như nhau khi các giả định được đáp ứng (nghĩa là về cơ bản giống nhau xác suất phạm lỗi alpha và beta) nhưng vượt trội so với thử nghiệm t nếu các giả định không được đáp ứng, đặc biệt là về sức mạnh. Do đó, họ khuyến nghị luôn luôn sử dụng phép thử Welch nếu cỡ mẫu vượt quá 30.
Là một nhận xét meta: Đối với những người quan tâm đến số liệu thống kê (như tôi và có lẽ hầu hết những người khác ở đây), một đối số dựa trên dữ liệu (như của tôi) ít nhất nên được tính bằng nhau như các đối số chỉ dựa trên cơ sở lý thuyết (như những người khác ở đây).
Cập nhật:
Sau khi suy nghĩ về chủ đề này một lần nữa, tôi tìm thấy hai khuyến nghị nữa trong đó đề xuất mới hơn hỗ trợ quan điểm của tôi. Nhìn vào các giấy tờ gốc (cả hai, ít nhất là đối với tôi, có sẵn miễn phí) cho các lập luận dẫn đến các khuyến nghị này.
Đề xuất đầu tiên đến từ Graeme D. Ruxton năm 2006: " Nếu bạn muốn so sánh xu hướng trung tâm của 2 quần thể dựa trên các mẫu dữ liệu không liên quan, thì nên sử dụng thử nghiệm kiểm tra phương sai không đồng đều theo ưu tiên cho kiểm tra t của Sinh viên hoặc Mann-Whitney U thử nghiệm. "
Trong:
Ruxton, GD, 2006. Phương sai không đồng đều t-test là một thay thế underused để t-test Student và kiểm định Mann-Whitney U .
Hành vi. Ecol . 17, 688 Quạt690.
Khuyến nghị thứ hai (cũ hơn) là từ Coombs et al. (1996, p 148.): " Nói tóm lại, các thử nghiệm mẫu t độc lập nói chung là chấp nhận được về mặt kiểm soát tỷ lệ lỗi loại I với điều kiện có mẫu kích thước bằng nhau đủ lớn, ngay cả khi bằng giả định sai dân bị vi phạm. Đối với bất bình đẳng Tuy nhiên, sử dụng các thử nghiệm có kích thước thứ hai không đối xứng với các phương sai dân số bằng nhau hoặc bình thường. Các lựa chọn hứa hẹn bao gồm các thử nghiệm có nghĩa là Wilcox H và Yuen được cắt xén kiểm soát tỷ lệ lỗi Loại I rộng hơn so với thử nghiệm tiếng Wales hoặc thử nghiệm James và có sức mạnh lớn hơn khi dữ liệu bị kéo dài. " (nhấn mạnh thêm)
Trong:
Coombs WT, Algina J, Oltman D. 1996. Các thử nghiệm giả thuyết omnibus đơn biến và đa biến được chọn để kiểm soát tỷ lệ lỗi loại I khi phương sai dân số không nhất thiết phải bằng nhau . Rev Giáo dục Res 66: 137 Chân79.
tất nhiên, người ta có thể bỏ qua cả hai bài kiểm tra và bắt đầu sử dụng bài kiểm tra t Bayesian (bài kiểm tra tỷ lệ Savage-Dickey), có thể giải thích cho các phương sai không đồng đều và không bằng nhau, và tốt nhất, nó cho phép định lượng bằng chứng ủng hộ giả thuyết khống (có nghĩa là, không còn nói chuyện "không từ chối" cũ)
Thử nghiệm này rất đơn giản (và nhanh chóng) để thực hiện, và có một bài viết giải thích rõ ràng cho độc giả không quen thuộc với thống kê Bayes về cách sử dụng nó, cùng với một tập lệnh R. về cơ bản bạn chỉ có thể chèn dữ liệu của mình gửi các lệnh đến bảng điều khiển R:
cũng có một hướng dẫn cho tất cả điều này, với dữ liệu ví dụ:
http://www.ruudwetzels.com/index.php?src=SDtest
Tôi biết đây không phải là câu trả lời trực tiếp cho những gì được hỏi, nhưng tôi nghĩ độc giả có thể thích có sự thay thế tốt đẹp này
chúc mừng
Bởi vì kết quả chính xác là thích hợp hơn cho các xấp xỉ và tránh các trường hợp cạnh lẻ trong đó phép gần đúng có thể dẫn đến một kết quả khác với phương pháp chính xác.
Phương pháp Welch không phải là cách nhanh hơn để thực hiện bất kỳ thử nghiệm t cũ nào, đó là một phép tính gần đúng có thể dễ dàng đối với một vấn đề rất khó: làm thế nào để xây dựng một thử nghiệm t theo phương sai không bằng nhau. Trường hợp phương sai bằng nhau được hiểu rõ, đơn giản và chính xác, và do đó nên luôn luôn được sử dụng khi có thể.
Hai lý do tôi có thể nghĩ ra:
T thường xuyên của sinh viên là khá mạnh mẽ để không đồng nhất nếu kích thước mẫu bằng nhau.
Nếu bạn tin tưởng mạnh mẽ a priori rằng dữ liệu là homoscedastic, sau đó bạn chẳng mất gì và có thể đạt được một lượng nhỏ năng lượng bằng cách sử dụng Studen'ts T thay vì T. Welch
Một lý do mà tôi sẽ không đưa ra là Student T chính xác và T của Welch thì không. IMHO tính chính xác của Student T là học thuật vì nó chỉ chính xác cho dữ liệu được phân phối thông thường và không có dữ liệu thực được phân phối chính xác thông thường. Tôi không thể nghĩ về một số lượng duy nhất mà mọi người thực sự đo lường và phân tích thống kê nơi phân phối có thể có sự hỗ trợ của tất cả các số thực. Ví dụ, chỉ có rất nhiều nguyên tử trong vũ trụ và một số lượng không thể âm. Do đó, khi bạn sử dụng bất kỳ loại kiểm tra T nào trên dữ liệu thực, bạn sẽ thực hiện xấp xỉ bằng mọi cách.
Thực tế là một cái gì đó phức tạp hơn làm giảm đến một cái gì đó ít phức tạp hơn khi một số giả định được kiểm tra là không đủ để loại bỏ phương pháp đơn giản hơn.
Tôi sẽ có quan điểm ngược lại ở đây. Tại sao phải bận tâm với bài kiểm tra tiếng Wales khi bài kiểm tra sinh viên không ghép đôi tiêu chuẩn cho bạn kết quả gần như giống hệt nhau. Tôi đã nghiên cứu vấn đề này một thời gian trước và tôi đã khám phá một loạt các kịch bản trong một nỗ lực để phá vỡ bài kiểm tra t và ủng hộ bài kiểm tra tiếng Wales. Để làm như vậy, tôi đã sử dụng cỡ mẫu lớn hơn tới 5 lần cho một nhóm so với nhóm khác. Và, tôi đã khám phá phương sai lớn hơn tới 25 lần cho một nhóm so với nhóm kia. Và, nó thực sự không làm cho bất kỳ sự khác biệt vật chất. Thử nghiệm không ghép đôi vẫn tạo ra một loạt các giá trị p gần giống với thử nghiệm tiếng Wales.
Bạn có thể thấy công việc của tôi tại liên kết sau và tập trung đặc biệt vào slide 5 và 6.
http://www.sl slideshoware.net/gaetanlion/un Paired-t-test-f Family
Đúng là các thuộc tính thường xuyên của bài kiểm tra sửa lỗi tiếng Wales tốt hơn T của Sinh viên bình thường, ít nhất là đối với các lỗi. Tôi đồng ý rằng một mình đó là một lập luận khá tốt cho bài kiểm tra tiếng Wales. Tuy nhiên, tôi thường miễn cưỡng đề xuất chỉnh sửa tiếng Wales vì việc sử dụng thường là lừa đảo. Đó là, thừa nhận không phải là một bài phê bình của chính bài kiểm tra.
Lý do tôi không khuyến nghị điều chỉnh tiếng Wales là vì nó không chỉ thay đổi mức độ tự do và phân phối lý thuyết tiếp theo mà từ đó giá trị p được rút ra. Nó làm cho bài kiểm tra không tham số. Để thực hiện phép thử t đã được hiệu chỉnh tiếng Wales, người ta vẫn có thể sử dụng phương sai như thể có thể giả sử phương sai bằng nhau nhưng sau đó thay đổi quy trình thử nghiệm cuối cùng có nghĩa là có thể giả sử phương sai bằng nhau hoặc bạn chỉ quan tâm đến phương sai mẫu. Điều này làm cho nó trở thành một thử nghiệm không tham số vì phương sai gộp được coi là không đại diện cho dân số và bạn thừa nhận rằng bạn chỉ đang thử nghiệm các giá trị quan sát của mình.
Trong và của chính nó không có gì đặc biệt sai với điều đó. Tuy nhiên, tôi thấy nó lừa đảo vì a) thông thường nó không được báo cáo với đủ tính cụ thể; và b) những người sử dụng nó có xu hướng nghĩ về nó thay thế cho nhau bằng một bài kiểm tra t. Cách duy nhất tôi từng biết rằng nó đã được thực hiện trong các bài báo được xuất bản là khi tôi thấy một DF kỳ lạ cho phân phối t. Đó cũng là cách duy nhất Rexton (được tham chiếu trong câu trả lời của Henrik) có thể nói trong đánh giá. Thật không may, bản chất không tham số của thử nghiệm sửa lỗi tiếng Wales xảy ra cho dù mức độ tự do có thay đổi hay không (nghĩa là ngay cả khi phương sai mẫu bằng nhau). Nhưng vấn đề báo cáo này là triệu chứng của thực tế là hầu hết những người sử dụng hiệu chỉnh tiếng Wales không nhận ra sự thay đổi này đối với thử nghiệm đã xảy ra.
Do đó, vì điều này, tôi tin rằng nếu bạn muốn đề xuất một thử nghiệm không tham số, đừng sử dụng một thử nghiệm thường xuất hiện tham số hoặc ít nhất là rất rõ ràng về những gì bạn đang làm. Tên chính thức của bài kiểm tra phải là bài kiểm tra T không chính xác của Welch Corrected. Nếu mọi người báo cáo theo cách đó tôi sẽ hạnh phúc hơn nhiều với khuyến nghị của Henrik.