Có sự khác biệt lớn về kích thước mẫu cùng với sự khác biệt về phương sai đối với phép thử t (hoặc phép thử hoán vị) không?


8

Có một câu hỏi rất khó hiểu trong đầu tôi. Tôi có dữ liệu và muốn so sánh điểm số giữa nam và nữ.

Có một sự khác biệt lớn trong hai nhóm đó: số lượng nam giới là 34, trong khi số lượng phụ nữ là 310, và phương sai không bằng nhau.

Theo như tôi biết, khi các phương sai không bằng nhau, tôi có thể sử dụng phương trình Welchifer Satterthwaite (kiểm tra t độc lập giả định phương sai không bằng nhau). Câu hỏi của tôi là: tôi vẫn có thể sử dụng phương trình này mặc dù có sự khác biệt lớn về kích thước mẫu giữa hai mẫu của tôi? Hoặc có giới hạn nhất định cho sự khác biệt về cỡ mẫu giữa hai mẫu không?


Phương sai của các nhóm và phương tiện là gì?
John

Câu trả lời:


11

Theo như tôi biết, khi phương sai không bằng nhau, tôi có thể sử dụng phương trình Welchifer Satterthwaite, câu hỏi của tôi là tôi vẫn có thể sử dụng phương trình này mặc dù thực sự có sự khác biệt lớn giữa hai mẫu? Hoặc có một giới hạn nhất định cho sự khác biệt giữa hai mẫu?

Việc sử dụng phân phối chi bình phương tỷ lệ với mức độ tự do từ phương trình Welchifer Satterthwaite để ước tính phương sai của sự khác biệt trong phương tiện mẫu chỉ là một xấp xỉ - một số xấp xỉ tốt hơn trong một số trường hợp so với các trường hợp khác.

Trên thực tế, tôi nghĩ rằng bất kỳ cách tiếp cận nào cho vấn đề này sẽ gần đúng theo cách này hay cách khác; đây là vấn đề nổi tiếng của BehDR-Fisher . Như nó nói ở phía trên bên phải trong liên kết ở đó, chỉ có các giải pháp gần đúng được biết .

Vì vậy, câu trả lời ngắn gọn về cơ bản là không bao giờ chính xác - và bạn có thể sử dụng nó bất cứ lúc nào bạn muốn --- nếu bạn có thể chịu đựng được thực tế là mức ý nghĩa và giá trị p của bạn không chính xác; như bao xa bạn có thể ra ngoài mà vẫn vui vẻ sử dụng nó phụ thuộc vào bạn. Một số người khoan dung hơn với các mức ý nghĩa và giá trị p gần đúng hơn so với những người khác *

* (trong các tình huống mà tôi có xu hướng sử dụng các bài kiểm tra giả thuyết, miễn là tôi biết hướng và cảm giác bị ràng buộc về mức độ ảnh hưởng, tôi có xu hướng khá khoan dung với các mức ý nghĩa khác với danh nghĩa; cố gắng công bố một kết quả khoa học trên một tạp chí, có lẽ tôi sẽ ghi lại tác động có thể có của phép tính gần đúng - thông qua mô phỏng - chi tiết hơn.)

Vậy làm thế nào để xấp xỉ hành xử?

Tất cả các bản phân phối đều bình thường :

Thử nghiệm Welch cho khá gần với mức ý nghĩa phù hợp khi kích thước mẫu gần bằng nhau (mặt khác, thử nghiệm phương sai bằng nhau cũng hoạt động khá tốt khi kích thước mẫu bằng nhau, thường chỉ có mức lạm phát vừa phải mức ý nghĩa ở cỡ mẫu nhỏ hơn).

Tỷ lệ lỗi loại I trở nên nhỏ hơn danh nghĩa ('bảo thủ') khi kích thước nhóm trở nên không đồng đều. Điều này ảnh hưởng đến cả Welch và hai bài kiểm tra mẫu thông thường theo cùng một hướng. Công suất cũng có thể thấp.

Phân phối bị lệch :

Nếu các bản phân phối bị lệch, các tác động ở cả mức ý nghĩa và sức mạnh có thể đáng kể hơn và bạn phải cảnh giác hơn nhiều (với độ lệch và phương sai không bằng nhau, tôi thường nghiêng về sử dụng GLM, miễn là các phương sai có vẻ liên quan đến giá trị trung bình theo cách thích hợp - ví dụ: nếu mức chênh lệch tăng theo giá trị trung bình, Gamma GLM có thể hoạt động tốt)

Tài liệu này thảo luận về một nghiên cứu mô phỏng nhỏ về thử nghiệm tiếng Wales, thử nghiệm t thông thường và thử nghiệm hoán vị dưới các phương sai bằng nhau và không bằng nhau, và các phân phối bình thường và phân phối sai lệch. Khuyến cáo:

thử nghiệm với hiệu chỉnh Welch rất hữu ích khi dữ liệu bình thường, kích thước mẫu nhỏ và phương sai không đồng nhất.

Điều này dường như rộng rãi phù hợp với những gì tôi đã đọc vào thời điểm khác.

Tuy nhiên, trong phần sau, đọc chi tiết về kết quả mô phỏng sâu hơn, họ tiếp tục nói:

tránh kiểm tra t được điều chỉnh bằng tiếng Wales trong các trường hợp cực đoan nhất về bất bình đẳng cỡ mẫu (công suất thấp hơn)

Mặc dù lời khuyên đó dựa trên kích thước mẫu rất nhỏ trong mẫu nhỏ hơn. Nó không được thực hiện ở các cỡ mẫu bạn có.

[Khi nghi ngờ về hành vi có thể xảy ra của một số thủ tục trong một số trường hợp cụ thể, tôi thích chạy mô phỏng của riêng mình. Thật dễ dàng trong R đến nỗi thường chỉ mất vài phút - bao gồm mã hóa, chạy mô phỏng và phân tích kết quả - để có được ý tưởng tốt về các thuộc tính).]

Tôi nghĩ rằng với một mẫu rất lớn và một cỡ mẫu trung bình, như bạn có, vẫn còn tương đối ít vấn đề khi áp dụng thử nghiệm tiếng Wales. Tôi sẽ kiểm tra lại bằng một mô phỏng, ngay bây giờ.

Kết quả mô phỏng của tôi :

Tôi đã sử dụng kích thước mẫu của bạn. Những mô phỏng này là theo quy tắc .

H0

a. Nhóm có mẫu lớn có độ lệch chuẩn gấp 3 lần so với nhóm nhỏ.

Thử nghiệm tiếng Wales đạt được rất gần với tỷ lệ lỗi loại 1 danh nghĩa. Các thử nghiệm t phương sai bằng nhau thực sự không; mức ý nghĩa của nó rất rất thấp, gần như bằng không.

b. Nhóm có mẫu nhỏ có độ lệch chuẩn gấp 3 lần dân số lớn.

Thử nghiệm tiếng Wales đạt được rất gần với tỷ lệ lỗi loại 1 danh nghĩa. Các thử nghiệm t phương sai bằng nhau không; mức độ quan trọng của nó được thổi phồng.

Trong thực tế, bài kiểm tra phương sai bằng nhau đã bị ảnh hưởng nặng nề đến mức tôi hoàn toàn không sử dụng nó; sẽ có rất ít điểm trong việc so sánh sức mạnh mà không điều chỉnh sự khác biệt về mức ý nghĩa.

Với kích thước mẫu lớn như vậy (có nghĩa là độ không đảm bảo trong trung bình của nó tương đối nhỏ), một khả năng khác thể hiện chính nó: thực hiện thử nghiệm một mẫu so với giá trị trung bình của mẫu lớn như thể nó đã được cố định . Nó chỉ ra rằng khi độ lệch chuẩn dân số nhỏ hơn nằm trong mẫu lớn hơn, mức ý nghĩa rất gần với danh nghĩa. Nó hoạt động tương đối tốt trong trường hợp này.

Khi độ lệch chuẩn dân số lớn hơn nằm trong mẫu lớn hơn, tỷ lệ lỗi loại 1 có phần bị thổi phồng (điều này có vẻ ngược lại với hiệu ứng trong thử nghiệm tiếng Wales).


Một cuộc thảo luận về kiểm tra hoán vị

AdamO và tôi đã thảo luận về một vấn đề tôi gặp phải với các bài kiểm tra hoán vị cho tình huống này (các phương sai dân số khác nhau trong một bài kiểm tra về sự khác biệt về địa điểm). Anh ấy yêu cầu tôi mô phỏng, vì vậy tôi sẽ thực hiện ở đây. Liên kết đến bài báo tôi đưa ra ở trên cũng thực hiện mô phỏng cho bài kiểm tra hoán vị dường như phù hợp rộng rãi với những phát hiện của tôi.

Vấn đề cơ bản là trong hai bài kiểm tra mẫu về vị trí có phương sai không bằng nhau, dưới giá trị null, các quan sát không thể trao đổi . Chúng tôi không thể trao đổi nhãn mà không ảnh hưởng đáng kể đến kết quả.

Mộtσ= =1Bσ= =3μMột= =μBMột, các quan sát lớn nhất và nhỏ nhất có nhiều khả năng đến từ mẫu B hơn so với mẫu A và các quan sát ở giữa có nhiều khả năng đến từ mẫu A (hơn 90% khả năng chúng có thể có trong các quan sát có thể trao đổi được ). Vấn đề này ảnh hưởng đến việc phân phối giá trị p dưới giá trị null . (Tuy nhiên, nếu kích thước mẫu bằng nhau, hiệu ứng khá nhỏ.)

Chúng ta hãy xem điều này với một mô phỏng, theo yêu cầu.

Mã của tôi không đặc biệt lạ mắt nhưng nó hoàn thành công việc. Tôi mô phỏng các phương tiện bằng nhau cho các cỡ mẫu được đề cập trong câu hỏi, trong ba trường hợp:

1) phương sai bằng nhau

2) mẫu lớn hơn đến từ một quần thể có độ lệch chuẩn lớn hơn (lớn gấp 3 lần so với mẫu khác)

3) mẫu nhỏ hơn đến từ một quần thể có phương sai lớn hơn (lớn gấp 3 lần)

Một trong những điều chúng tôi quan tâm với các bài kiểm tra giả thuyết là 'nếu tôi tiếp tục lấy mẫu các quần thể này và thực hiện bài kiểm tra này nhiều lần, tỷ lệ lỗi loại I của tôi là gì'?

Chúng ta có thể tính toán điều này ở đây. Quy trình bao gồm vẽ các mẫu bình thường phù hợp với các điều kiện trên, với cùng một giá trị trung bình và sau đó tính toán lượng tử của mẫu trong phân phối hoán vị. Bởi vì chúng tôi làm điều này nhiều lần, điều này liên quan đến việc mô phỏng nhiều mẫu, và sau đó trong mỗi mẫu, lấy mẫu lại nhiều dữ liệu để lấy phân phối hoán vị có điều kiện trên mẫu đó . Đối với mỗi mẫu mô phỏng tôi nhận được một giá trị p duy nhất (bằng cách so sánh sự khác biệt về phương tiện trên mẫu ban đầu với phân phối hoán vị cho mẫu cụ thể đó). Với nhiều mẫu như vậy, tôi nhận được phân phối giá trị p. Điều này cho chúng tôi biết xác suất, với hai quần thể có cùng giá trị trung bình, chúng tôi sẽ vẽ một mẫu mà chúng tôi từ chối null (đây là tỷ lệ lỗi Loại I).

Đây là mã cho một mô phỏng như vậy (trường hợp 2 ở trên):

nperms <- 3000; nsamps <- 3000
n1 <- 310; n2 <- 34; ni12  <-  1/n1+1/n2
s1 <- 3; s2 <- 1

simpv  <-  function(n1,n2,s1,s2,nperms) {
  x <- rnorm(n1,s = s1);y <- rnorm(n2,s = s2)
  sdiff <- mean(x)-mean(y)
  xy <- c(x,y)
  sn1 <- sum(xy)/n1
  diffs <- replicate(nperms,sn1-sum(sample(xy,n2))*ni12)
  sum(sdiff<diffs)/nperms
}

pvs1big <- replicate(nsamps,simpv(n1,n2,s1,s2,nperms))

Đối với hai trường hợp khác, mã giống nhau, ngoại trừ tôi đã thay đổi s1=s2=(và cũng thay đổi những gì tôi đã lưu trữ giá trị p trong). Đối với trường hợp 1 s1=1; s2=1và đối với trường hợp 3s1=1; s2=3

Bây giờ dưới giá trị null, việc phân phối các giá trị p về cơ bản phải thống nhất hoặc chúng tôi không có tỷ lệ lỗi loại I được quảng cáo. (Như đã thực hiện, các giá trị p có hiệu quả đối với các thử nghiệm 1 đuôi, nhưng bạn có thể thấy điều gì sẽ xảy ra đối với thử nghiệm hai đuôi bằng cách xem xét cả hai đầu phân phối giá trị p. vấn đề.)

Đây là kết quả.

nhập mô tả hình ảnh ở đây

Trường hợp 1 nằm ở trên cùng bên trái. Trong trường hợp này, các giá trị có thể trao đổi và chúng ta thấy phân phối giá trị p trông khá đồng đều.

Trường hợp 2 nằm ở trên cùng bên phải. Trong trường hợp này, mẫu lớn hơn có phương sai lớn hơn và chúng ta thấy rằng các giá trị p được tập trung về phía tâm. Chúng tôi ít có khả năng từ chối một trường hợp null ở mức ý nghĩa điển hình hơn chúng tôi nghĩ chúng ta nên làm. Đó là, tỷ lệ lỗi loại I thấp hơn nhiều so với tỷ lệ danh nghĩa.

Trường hợp 3 ở phía dưới bên phải. Trong trường hợp này, mẫu nhỏ hơn có phương sai lớn hơn và chúng ta thấy rằng các giá trị p được tập trung ở hai đầu - dưới giá trị null, chúng ta có nhiều khả năng từ chối hơn chúng ta nghĩ. Mức ý nghĩa cao hơn nhiều so với tỷ lệ danh nghĩa.


Thảo luận về vấn đề Beh Beh Fisher trong Tốt

Cuốn sách hay được đề cập bởi AdamO sẽ thảo luận về vấn đề này trên p54-57.

Ông đề cập đến một kết quả của Romano rằng các quốc gia mà các thử nghiệm hoán vị là tiệm chính xác cung cấp họ có kích thước mẫu bằng . Tất nhiên, ở đây, họ không - thay vì 50-50, họ khoảng 90-10.

Và khi tôi mô phỏng trường hợp cỡ mẫu bằng nhau (tôi đã thử n1 = n2 = 34), phân phối giá trị p không còn đồng đều ** - nó chỉ mất một lượng nhỏ nhưng không đủ để lo lắng. Điều này khá nổi tiếng và được sinh ra bởi một số nghiên cứu mô phỏng được công bố.

** (Tôi chưa bao gồm mã, nhưng thật đơn giản để điều chỉnh mã ở trên để làm điều đó - chỉ cần thay đổi n1 thành 34)

Good nói rằng hành vi trong trường hợp kích thước mẫu bằng nhau hoạt động xuống kích thước mẫu khá nhỏ. Tôi tin anh ấy!


Một bài kiểm tra bootstrap thì sao?

Vậy điều gì sẽ xảy ra nếu chúng ta thử một bài kiểm tra bootstrap thay vì kiểm tra hoán vị?

Với bài kiểm tra bootstrap *, sự phản đối của tôi không còn được giữ nữa.

* ví dụ: một cách tiếp cận có thể là xây dựng một CI cho sự khác biệt về phương tiện và từ chối ở mức 5% nếu khoảng 95% cho giá trị trung bình không bao gồm 0

Với thử nghiệm bootstrap, chúng tôi không còn bắt buộc phải có thể dán lại trên các mẫu - chúng tôi có thể lấy mẫu lại trong các mẫu chúng tôi có và vẫn nhận được CI phù hợp cho sự khác biệt về phương tiện. Với một số quy trình thông thường để cải thiện các thuộc tính của bootstrap, một thử nghiệm như vậy có thể hoạt động rất tốt ở các kích thước mẫu này.


RE: đề xuất của bạn về việc sử dụng GLM, trong các mẫu nhỏ, sử dụng các mô hình tham số rất linh hoạt có thể giúp tăng sức mạnh ... nhưng tôi muốn đề xuất một thử nghiệm không tham số, như hoán vị. Tôi hy vọng khi OP nói rằng có "sự khác biệt lớn" trong các dữ liệu này, điều đó có nghĩa là sự khác biệt trung bình là rất lớn và rõ ràng, chỉ cần có giá trị p để xác nhận "kiểm tra nội nhãn có ý nghĩa". Kiểm tra hoán vị có rất ít nếu có bất kỳ giả định nào gắn liền với chúng.
AdamO

2
@AdamO đối phó với các bài kiểm tra hoán vị theo phương sai không bằng nhau là một vấn đề; Làm thế nào để bạn tính toán phân phối hoán vị dưới giá trị null mà không loại bỏ các phương sai không bằng nhau mà bạn đã bắt đầu?
Glen_b -Reinstate Monica

nó tương đối đơn giản, tôi sẽ cung cấp một ví dụ mã hóa trong một câu trả lời riêng. Điều quan trọng là bạn chỉ hoán vị nhãn, do đó, mức chênh lệch trung bình sẽ luôn là 0 do nhãn có khả năng được hoán đổi cho bất kỳ cá nhân nào khác trong mẫu. Tuy nhiên, phương sai của mẫu được hoán vị là một số trung bình có trọng số của hai phương sai, chỉ có thể thu được mà không tính toán MCMC.
AdamO

2

Một tùy chọn, được nhắc nhở bởi phản hồi của @ Glen_b là một thử nghiệm hoán vị trong đó phơi nhiễm (nhãn nhóm) được cho phép ngẫu nhiên để có được phân phối lấy mẫu của thống kê kiểm tra theo giả thuyết null, bất kể phân phối tham số của dữ liệu.

## example of permutation test
set.seed(1)
men <- rexp(30, 1.3)
women <- rexp(300, 0.8)

stacked <- c(men, women)
labels <- c(rep('m', 30), rep('w', 300))
o.diff <- diff(tapply(stacked, labels, mean))
d.null <- replicate(5000, {
  diff(tapply(stacked, sample(labels), mean))
})

b <- hist(d.null, plot=FALSE)
col <- ifelse(b$breaks > o.diff, 'green', 'white')
    plot(b, col=col)
    text(o.diff, par()$yaxp[2], paste0('P - value = ', mean(d.null > o.diff)))

abline(v=o.diff)

1
Nhưng vấn đề là khi bạn hoán vị các nhãn, việc lấy mẫu của bạn dưới giá trị làm cho phương sai dân số bằng nhau - bạn chỉ đơn giản là lấy mẫu từ hỗn hợp của hai phân phối cho cả hai mẫu. Toàn bộ điểm của một bài kiểm tra hoán vị là để có một bài kiểm tra chính xác, và điều này không tiến gần đến việc đó, bởi vì nó đưa ra điều kiện về các phương sai dân số khác nhau - nếu null là đúng nhưng phương sai dân số thực sự khác nhau, bạn một cách hợp lý không thể coi mẫu quan sát là một mẫu ngẫu nhiên từ phân phối hoán vị của bạn.
Glen_b -Reinstate Monica

1
Để làm rõ - chúng ta có thể thực hiện kiểm tra theo cách này, nhưng nó không giữ tỷ lệ lỗi loại I danh nghĩa của nó và sức mạnh cũng bị ảnh hưởng. Trừ khi chúng tôi ghi chép cẩn thận kích thước của các hiệu ứng đó trong các trường hợp quan tâm, chúng tôi không thể nói liệu điều này có bị ảnh hưởng nhiều hơn hay ít bị ảnh hưởng hơn bất kỳ thử nghiệm cạnh tranh nào.
Glen_b -Reinstate Monica

Chúng tôi không ước tính phân phối lấy mẫu của dữ liệu, đó là phân phối lấy mẫu của thống kê kiểm tra. Đây là một đại lượng đơn biến và do đó, chỉ có một phương sai. Đó là sự kỳ diệu của bài kiểm tra hoán vị!
AdamO

Bạn đang ước tính phân phối lấy mẫu của một thống kê kiểm tra theo hoán vị của nhãn. Khi các bản phân phối có hình dạng giống nhau ngoài vật được thử nghiệm (bằng với giá trị null), thì tình huống null tương ứng với các bản phân phối giống hệt nhau và các nhãn có hiệu lực tùy ý và do đó có thể được xáo trộn tự do mà không thay đổi bất cứ điều gì. Khi, dưới null, hai phân phối KHÔNG đồng nhất (như, cụ thể, là trường hợp ở đây), sau đó các nhãn không tùy ý (chúng biểu thị các phân phối có phương sai khác nhau). ... (ctd)
Glen_b -Reinstate Monica

1
Hình như là có. Tôi phải trả lại một cuốn sách ngày hôm nay, tôi sẽ xem liệu tôi có thể lấy nó không. Tốt nói chung là rất ... um tốt .
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.