Theo như tôi biết, khi phương sai không bằng nhau, tôi có thể sử dụng phương trình Welchifer Satterthwaite, câu hỏi của tôi là tôi vẫn có thể sử dụng phương trình này mặc dù thực sự có sự khác biệt lớn giữa hai mẫu? Hoặc có một giới hạn nhất định cho sự khác biệt giữa hai mẫu?
Việc sử dụng phân phối chi bình phương tỷ lệ với mức độ tự do từ phương trình Welchifer Satterthwaite để ước tính phương sai của sự khác biệt trong phương tiện mẫu chỉ là một xấp xỉ - một số xấp xỉ tốt hơn trong một số trường hợp so với các trường hợp khác.
Trên thực tế, tôi nghĩ rằng bất kỳ cách tiếp cận nào cho vấn đề này sẽ gần đúng theo cách này hay cách khác; đây là vấn đề nổi tiếng của BehDR-Fisher . Như nó nói ở phía trên bên phải trong liên kết ở đó, chỉ có các giải pháp gần đúng được biết .
Vì vậy, câu trả lời ngắn gọn về cơ bản là không bao giờ chính xác - và bạn có thể sử dụng nó bất cứ lúc nào bạn muốn --- nếu bạn có thể chịu đựng được thực tế là mức ý nghĩa và giá trị p của bạn không chính xác; như bao xa bạn có thể ra ngoài mà vẫn vui vẻ sử dụng nó phụ thuộc vào bạn. Một số người khoan dung hơn với các mức ý nghĩa và giá trị p gần đúng hơn so với những người khác *
* (trong các tình huống mà tôi có xu hướng sử dụng các bài kiểm tra giả thuyết, miễn là tôi biết hướng và cảm giác bị ràng buộc về mức độ ảnh hưởng, tôi có xu hướng khá khoan dung với các mức ý nghĩa khác với danh nghĩa; cố gắng công bố một kết quả khoa học trên một tạp chí, có lẽ tôi sẽ ghi lại tác động có thể có của phép tính gần đúng - thông qua mô phỏng - chi tiết hơn.)
Vậy làm thế nào để xấp xỉ hành xử?
Tất cả các bản phân phối đều bình thường :
Thử nghiệm Welch cho khá gần với mức ý nghĩa phù hợp khi kích thước mẫu gần bằng nhau (mặt khác, thử nghiệm phương sai bằng nhau cũng hoạt động khá tốt khi kích thước mẫu bằng nhau, thường chỉ có mức lạm phát vừa phải mức ý nghĩa ở cỡ mẫu nhỏ hơn).
Tỷ lệ lỗi loại I trở nên nhỏ hơn danh nghĩa ('bảo thủ') khi kích thước nhóm trở nên không đồng đều. Điều này ảnh hưởng đến cả Welch và hai bài kiểm tra mẫu thông thường theo cùng một hướng. Công suất cũng có thể thấp.
Phân phối bị lệch :
Nếu các bản phân phối bị lệch, các tác động ở cả mức ý nghĩa và sức mạnh có thể đáng kể hơn và bạn phải cảnh giác hơn nhiều (với độ lệch và phương sai không bằng nhau, tôi thường nghiêng về sử dụng GLM, miễn là các phương sai có vẻ liên quan đến giá trị trung bình theo cách thích hợp - ví dụ: nếu mức chênh lệch tăng theo giá trị trung bình, Gamma GLM có thể hoạt động tốt)
Tài liệu này thảo luận về một nghiên cứu mô phỏng nhỏ về thử nghiệm tiếng Wales, thử nghiệm t thông thường và thử nghiệm hoán vị dưới các phương sai bằng nhau và không bằng nhau, và các phân phối bình thường và phân phối sai lệch. Khuyến cáo:
thử nghiệm với hiệu chỉnh Welch rất hữu ích khi dữ liệu bình thường, kích thước mẫu nhỏ và phương sai không đồng nhất.
Điều này dường như rộng rãi phù hợp với những gì tôi đã đọc vào thời điểm khác.
Tuy nhiên, trong phần sau, đọc chi tiết về kết quả mô phỏng sâu hơn, họ tiếp tục nói:
tránh kiểm tra t được điều chỉnh bằng tiếng Wales trong các trường hợp cực đoan nhất về bất bình đẳng cỡ mẫu (công suất thấp hơn)
Mặc dù lời khuyên đó dựa trên kích thước mẫu rất nhỏ trong mẫu nhỏ hơn. Nó không được thực hiện ở các cỡ mẫu bạn có.
[Khi nghi ngờ về hành vi có thể xảy ra của một số thủ tục trong một số trường hợp cụ thể, tôi thích chạy mô phỏng của riêng mình. Thật dễ dàng trong R đến nỗi thường chỉ mất vài phút - bao gồm mã hóa, chạy mô phỏng và phân tích kết quả - để có được ý tưởng tốt về các thuộc tính).]
Tôi nghĩ rằng với một mẫu rất lớn và một cỡ mẫu trung bình, như bạn có, vẫn còn tương đối ít vấn đề khi áp dụng thử nghiệm tiếng Wales. Tôi sẽ kiểm tra lại bằng một mô phỏng, ngay bây giờ.
Kết quả mô phỏng của tôi :
Tôi đã sử dụng kích thước mẫu của bạn. Những mô phỏng này là theo quy tắc .
H0
a. Nhóm có mẫu lớn có độ lệch chuẩn gấp 3 lần so với nhóm nhỏ.
Thử nghiệm tiếng Wales đạt được rất gần với tỷ lệ lỗi loại 1 danh nghĩa. Các thử nghiệm t phương sai bằng nhau thực sự không; mức ý nghĩa của nó rất rất thấp, gần như bằng không.
b. Nhóm có mẫu nhỏ có độ lệch chuẩn gấp 3 lần dân số lớn.
Thử nghiệm tiếng Wales đạt được rất gần với tỷ lệ lỗi loại 1 danh nghĩa. Các thử nghiệm t phương sai bằng nhau không; mức độ quan trọng của nó được thổi phồng.
Trong thực tế, bài kiểm tra phương sai bằng nhau đã bị ảnh hưởng nặng nề đến mức tôi hoàn toàn không sử dụng nó; sẽ có rất ít điểm trong việc so sánh sức mạnh mà không điều chỉnh sự khác biệt về mức ý nghĩa.
Với kích thước mẫu lớn như vậy (có nghĩa là độ không đảm bảo trong trung bình của nó tương đối nhỏ), một khả năng khác thể hiện chính nó: thực hiện thử nghiệm một mẫu so với giá trị trung bình của mẫu lớn như thể nó đã được cố định . Nó chỉ ra rằng khi độ lệch chuẩn dân số nhỏ hơn nằm trong mẫu lớn hơn, mức ý nghĩa rất gần với danh nghĩa. Nó hoạt động tương đối tốt trong trường hợp này.
Khi độ lệch chuẩn dân số lớn hơn nằm trong mẫu lớn hơn, tỷ lệ lỗi loại 1 có phần bị thổi phồng (điều này có vẻ ngược lại với hiệu ứng trong thử nghiệm tiếng Wales).
Một cuộc thảo luận về kiểm tra hoán vị
AdamO và tôi đã thảo luận về một vấn đề tôi gặp phải với các bài kiểm tra hoán vị cho tình huống này (các phương sai dân số khác nhau trong một bài kiểm tra về sự khác biệt về địa điểm). Anh ấy yêu cầu tôi mô phỏng, vì vậy tôi sẽ thực hiện ở đây. Liên kết đến bài báo tôi đưa ra ở trên cũng thực hiện mô phỏng cho bài kiểm tra hoán vị dường như phù hợp rộng rãi với những phát hiện của tôi.
Vấn đề cơ bản là trong hai bài kiểm tra mẫu về vị trí có phương sai không bằng nhau, dưới giá trị null, các quan sát không thể trao đổi . Chúng tôi không thể trao đổi nhãn mà không ảnh hưởng đáng kể đến kết quả.
Mộtσ= 1Bσ= 3μMột= μBMột, các quan sát lớn nhất và nhỏ nhất có nhiều khả năng đến từ mẫu B hơn so với mẫu A và các quan sát ở giữa có nhiều khả năng đến từ mẫu A (hơn 90% khả năng chúng có thể có trong các quan sát có thể trao đổi được ). Vấn đề này ảnh hưởng đến việc phân phối giá trị p dưới giá trị null . (Tuy nhiên, nếu kích thước mẫu bằng nhau, hiệu ứng khá nhỏ.)
Chúng ta hãy xem điều này với một mô phỏng, theo yêu cầu.
Mã của tôi không đặc biệt lạ mắt nhưng nó hoàn thành công việc. Tôi mô phỏng các phương tiện bằng nhau cho các cỡ mẫu được đề cập trong câu hỏi, trong ba trường hợp:
1) phương sai bằng nhau
2) mẫu lớn hơn đến từ một quần thể có độ lệch chuẩn lớn hơn (lớn gấp 3 lần so với mẫu khác)
3) mẫu nhỏ hơn đến từ một quần thể có phương sai lớn hơn (lớn gấp 3 lần)
Một trong những điều chúng tôi quan tâm với các bài kiểm tra giả thuyết là 'nếu tôi tiếp tục lấy mẫu các quần thể này và thực hiện bài kiểm tra này nhiều lần, tỷ lệ lỗi loại I của tôi là gì'?
Chúng ta có thể tính toán điều này ở đây. Quy trình bao gồm vẽ các mẫu bình thường phù hợp với các điều kiện trên, với cùng một giá trị trung bình và sau đó tính toán lượng tử của mẫu trong phân phối hoán vị. Bởi vì chúng tôi làm điều này nhiều lần, điều này liên quan đến việc mô phỏng nhiều mẫu, và sau đó trong mỗi mẫu, lấy mẫu lại nhiều dữ liệu để lấy phân phối hoán vị có điều kiện trên mẫu đó . Đối với mỗi mẫu mô phỏng tôi nhận được một giá trị p duy nhất (bằng cách so sánh sự khác biệt về phương tiện trên mẫu ban đầu với phân phối hoán vị cho mẫu cụ thể đó). Với nhiều mẫu như vậy, tôi nhận được phân phối giá trị p. Điều này cho chúng tôi biết xác suất, với hai quần thể có cùng giá trị trung bình, chúng tôi sẽ vẽ một mẫu mà chúng tôi từ chối null (đây là tỷ lệ lỗi Loại I).
Đây là mã cho một mô phỏng như vậy (trường hợp 2 ở trên):
nperms <- 3000; nsamps <- 3000
n1 <- 310; n2 <- 34; ni12 <- 1/n1+1/n2
s1 <- 3; s2 <- 1
simpv <- function(n1,n2,s1,s2,nperms) {
x <- rnorm(n1,s = s1);y <- rnorm(n2,s = s2)
sdiff <- mean(x)-mean(y)
xy <- c(x,y)
sn1 <- sum(xy)/n1
diffs <- replicate(nperms,sn1-sum(sample(xy,n2))*ni12)
sum(sdiff<diffs)/nperms
}
pvs1big <- replicate(nsamps,simpv(n1,n2,s1,s2,nperms))
Đối với hai trường hợp khác, mã giống nhau, ngoại trừ tôi đã thay đổi s1=
và s2=
(và cũng thay đổi những gì tôi đã lưu trữ giá trị p trong). Đối với trường hợp 1 s1=1; s2=1
và đối với trường hợp 3s1=1; s2=3
Bây giờ dưới giá trị null, việc phân phối các giá trị p về cơ bản phải thống nhất hoặc chúng tôi không có tỷ lệ lỗi loại I được quảng cáo. (Như đã thực hiện, các giá trị p có hiệu quả đối với các thử nghiệm 1 đuôi, nhưng bạn có thể thấy điều gì sẽ xảy ra đối với thử nghiệm hai đuôi bằng cách xem xét cả hai đầu phân phối giá trị p. vấn đề.)
Đây là kết quả.
Trường hợp 1 nằm ở trên cùng bên trái. Trong trường hợp này, các giá trị có thể trao đổi và chúng ta thấy phân phối giá trị p trông khá đồng đều.
Trường hợp 2 nằm ở trên cùng bên phải. Trong trường hợp này, mẫu lớn hơn có phương sai lớn hơn và chúng ta thấy rằng các giá trị p được tập trung về phía tâm. Chúng tôi ít có khả năng từ chối một trường hợp null ở mức ý nghĩa điển hình hơn chúng tôi nghĩ chúng ta nên làm. Đó là, tỷ lệ lỗi loại I thấp hơn nhiều so với tỷ lệ danh nghĩa.
Trường hợp 3 ở phía dưới bên phải. Trong trường hợp này, mẫu nhỏ hơn có phương sai lớn hơn và chúng ta thấy rằng các giá trị p được tập trung ở hai đầu - dưới giá trị null, chúng ta có nhiều khả năng từ chối hơn chúng ta nghĩ. Mức ý nghĩa cao hơn nhiều so với tỷ lệ danh nghĩa.
Thảo luận về vấn đề Beh Beh Fisher trong Tốt
Cuốn sách hay được đề cập bởi AdamO sẽ thảo luận về vấn đề này trên p54-57.
Ông đề cập đến một kết quả của Romano rằng các quốc gia mà các thử nghiệm hoán vị là tiệm chính xác cung cấp họ có kích thước mẫu bằng . Tất nhiên, ở đây, họ không - thay vì 50-50, họ khoảng 90-10.
Và khi tôi mô phỏng trường hợp cỡ mẫu bằng nhau (tôi đã thử n1 = n2 = 34), phân phối giá trị p không còn đồng đều ** - nó chỉ mất một lượng nhỏ nhưng không đủ để lo lắng. Điều này khá nổi tiếng và được sinh ra bởi một số nghiên cứu mô phỏng được công bố.
** (Tôi chưa bao gồm mã, nhưng thật đơn giản để điều chỉnh mã ở trên để làm điều đó - chỉ cần thay đổi n1 thành 34)
Good nói rằng hành vi trong trường hợp kích thước mẫu bằng nhau hoạt động xuống kích thước mẫu khá nhỏ. Tôi tin anh ấy!
Một bài kiểm tra bootstrap thì sao?
Vậy điều gì sẽ xảy ra nếu chúng ta thử một bài kiểm tra bootstrap thay vì kiểm tra hoán vị?
Với bài kiểm tra bootstrap *, sự phản đối của tôi không còn được giữ nữa.
* ví dụ: một cách tiếp cận có thể là xây dựng một CI cho sự khác biệt về phương tiện và từ chối ở mức 5% nếu khoảng 95% cho giá trị trung bình không bao gồm 0
Với thử nghiệm bootstrap, chúng tôi không còn bắt buộc phải có thể dán lại trên các mẫu - chúng tôi có thể lấy mẫu lại trong các mẫu chúng tôi có và vẫn nhận được CI phù hợp cho sự khác biệt về phương tiện. Với một số quy trình thông thường để cải thiện các thuộc tính của bootstrap, một thử nghiệm như vậy có thể hoạt động rất tốt ở các kích thước mẫu này.