Kiểm tra T cho không bình thường khi N> 50?


77

Từ lâu tôi đã biết rằng phân phối bình thường là cần thiết để sử dụng thử nghiệm T hai mẫu. Hôm nay một đồng nghiệp nói với tôi rằng cô ấy đã học được rằng N> 50 phân phối bình thường là không cần thiết. Điều đó có đúng không?

Nếu đúng là do định lý giới hạn trung tâm?


3
Câu hỏi liên quan với câu trả lời rất hay của thống kê Glen_b.stackexchange.com/questions/121852/iêu
Tim

Câu trả lời:


82

Giả định tính chuẩn của một bài kiểm tra t

Hãy xem xét một dân số lớn mà từ đó bạn có thể lấy nhiều mẫu khác nhau có kích thước cụ thể. (Trong một nghiên cứu cụ thể, bạn thường chỉ thu thập một trong những mẫu này.)

Thử nghiệm t giả định rằng phương tiện của các mẫu khác nhau thường được phân phối; nó không cho rằng dân số được phân phối bình thường.

Theo định lý giới hạn trung tâm, phương tiện của các mẫu từ một quần thể có phương sai hữu hạn tiếp cận một phân phối bình thường bất kể sự phân bố của dân số. Quy tắc ngón tay cái nói rằng phương tiện mẫu về cơ bản được phân phối miễn là cỡ mẫu ít nhất là 20 hoặc 30. Để thử nghiệm t có hiệu lực trên mẫu có kích thước nhỏ hơn, phân bố dân số sẽ phải xấp xỉ bình thường.

Thử nghiệm t không hợp lệ đối với các mẫu nhỏ từ các phân phối không bình thường, nhưng nó hợp lệ đối với các mẫu lớn từ các phân phối không bình thường.

Mẫu nhỏ từ phân phối không bình thường

Như Michael lưu ý dưới đây, cỡ mẫu cần thiết cho việc phân phối phương tiện theo mức độ gần đúng phụ thuộc vào mức độ không quy tắc của dân số. Đối với các bản phân phối bình thường, bạn sẽ không cần mẫu lớn như phân phối rất không bình thường.

Dưới đây là một số mô phỏng bạn có thể chạy trong R để cảm nhận điều này. Đầu tiên, đây là một vài phân phối dân số.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Tiếp theo là một số mô phỏng mẫu từ phân bố dân số. Trong mỗi dòng này, "10" là cỡ mẫu, "100" là số lượng mẫu và hàm sau đó chỉ định phân bố dân số. Họ sản xuất biểu đồ của các phương tiện mẫu.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Để kiểm tra t có hiệu lực, các biểu đồ này phải bình thường.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Tiện ích của một bài kiểm tra t

Tôi phải lưu ý rằng tất cả những kiến ​​thức tôi vừa truyền đạt có phần lỗi thời; bây giờ chúng tôi có máy tính, chúng tôi có thể làm tốt hơn kiểm tra t. Như Frank lưu ý, có lẽ bạn muốn sử dụng các bài kiểm tra Wilcoxon ở bất cứ nơi nào bạn được dạy để chạy thử nghiệm t.


7
Giải thích tốt (+1). Tuy nhiên, tôi sẽ thêm rằng kích thước mẫu cần thiết cho việc phân phối các phương tiện để tính gần đúng mức độ bình thường dựa trên mức độ không bình thường của dân số. Đối với các mẫu lớn, không có lý do nào để thích thử nghiệm t hơn thử nghiệm hoán vị mà không đưa ra giả định nào về các phân phối.
Michael Lew

2
+1 mặc dù, theo như tôi biết, kiểm tra t khá chống lại độ lệch vừa phải so với tính chuẩn. Ngoài ra, một cuộc thảo luận liên quan thú vị: stats.stackexchange.com/questions/2492/ trên
nico

4
câu trả lời tốt, mặc dù có một chi tiết nhỏ mà bạn đã bỏ lỡ: phân phối dữ liệu phải có phương sai hữu hạn. Kiểm tra T là vô vọng khi so sánh sự khác biệt về vị trí của hai phân phối Cauchy (hoặc sinh viên có 2 bậc tự do), không phải vì nó "không mạnh mẽ", mà vì các phân phối này có thêm thông tin liên quan trong mẫu ngoài phương tiện và độ lệch chuẩn mà bài kiểm tra t ném đi.
xác suất

2
Ngoài ra, kiểm tra t cũng tự nhiên mang lại khoảng tin cậy cho tham số đang được nghiên cứu. (vẫn upvote vì hai đoạn đầu tiên trực tiếp trả lời câu hỏi, tôi chỉ không đồng ý mạnh mẽ với đoạn thứ ba)
Erik

6
T-test DOES yêu cầu sự bình thường của dân số. Đó là một giả định cần thiết cho thống kê t để có phân phối t-Student. Nếu bạn không có dân số bình thường, bạn không thể biểu thị thống kê t dưới dạng biến thông thường tiêu chuẩn chia cho gốc của biến Chi bình phương chia cho mức độ tự do của nó. Có thể những gì bạn đang cố gắng nói là nếu một số điều kiện là đúng, như không có quá nhiều sai lệch, hoặc một mẫu lớn, thử nghiệm vẫn có thể có hiệu lực ngay cả khi dân số không bình thường.
toneloy

44

Định lý giới hạn trung tâm ít hữu ích hơn người ta có thể nghĩ trong bối cảnh này. Đầu tiên, như ai đó đã chỉ ra, người ta không biết kích thước mẫu hiện tại có "đủ lớn" hay không. Thứ hai, CLT thiên về việc đạt được lỗi loại I mong muốn hơn là về lỗi loại II. Nói cách khác, bài kiểm tra t có thể là sức mạnh khôn ngoan. Đó là lý do tại sao thử nghiệm Wilcoxon rất phổ biến. Nếu quy tắc giữ, nó hiệu quả 95% như kiểm tra t. Nếu quy tắc không giữ nó có thể hiệu quả hơn so với thử nghiệm t.


7
(+1) Chào mừng bạn đến với trang web mà tôi rất vui vì bạn đã tìm thấy. Tôi mong sự tham gia của bạn ở đây.
Đức hồng y

4
(+1) Điểm hay về Wilcoxon.
whuber

18

Xem câu trả lời trước của tôi cho một câu hỏi về tính mạnh mẽ của bài kiểm tra t .

Đặc biệt, tôi khuyên bạn nên chơi xung quanh với applet onlinestatsbook .

Hình ảnh dưới đây dựa trên kịch bản sau đây:

  • giả thuyết khống là đúng
  • độ lệch khá nghiêm trọng
  • phân phối giống nhau trong cả hai nhóm
  • cùng phương sai trong cả hai nhóm
  • cỡ mẫu cho mỗi nhóm 5 (nghĩa là ít hơn 50 theo câu hỏi của bạn)
  • Tôi đã nhấn nút 10.000 mô phỏng khoảng 100 lần để có được hơn một triệu mô phỏng.

Mô phỏng thu được cho thấy thay vì nhận được lỗi 5% Loại I, tôi chỉ nhận được 4,5% lỗi Loại I.

Cho dù bạn xem xét điều này mạnh mẽ phụ thuộc vào quan điểm của bạn.

nhập mô tả hình ảnh ở đây


4
+1 Điểm tốt. Tuy nhiên, sức mạnh của phép thử t với các lựa chọn thay thế bị lệch có thể làm suy giảm nghiêm trọng (đến mức về cơ bản là bằng 0 ngay cả đối với các kích cỡ hiệu ứng khổng lồ).
whuber

6

h= =0,24999

p= =10-41-p

chỉnh sửa : duh, per @ whuber bắt trong bình luận, ví dụ tôi đưa ra không có nghĩa là 0, vì vậy việc kiểm tra giá trị trung bình bằng 0 không liên quan gì đến tỷ lệ loại I.

Bởi vì ví dụ xổ số thường có độ lệch chuẩn mẫu bằng 0, cuộn cảm kiểm tra t. Vì vậy, thay vào đó, tôi đưa ra một ví dụ mã bằng cách sử dụng phân phối Lambert W x Gaussian của Goerg . Phân phối tôi sử dụng ở đây có độ lệch khoảng 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Mã này đưa ra tỷ lệ loại bỏ theo kinh nghiệm ở mức 0,05 danh nghĩa cho các cỡ mẫu khác nhau. Đối với mẫu có kích thước 50, tỷ lệ thực nghiệm là 0,40 (!); đối với cỡ mẫu 250, 0,29; đối với cỡ mẫu 1000, 0,21; cho cỡ mẫu 2000, 0,18. Rõ ràng các bài kiểm tra t mẫu một bị xiên.


p= =0

1

Định lý giới hạn trung tâm thiết lập (trong các điều kiện bắt buộc) rằng tử số của thống kê t là bình thường không có triệu chứng. Thống kê t cũng có mẫu số. Để có phân phối t, bạn cần mẫu số là độc lập và căn bậc hai của một chi-vuông-trên-nó-df.

Và chúng tôi biết nó sẽ không độc lập (đặc trưng cho sự bình thường!)

Định lý của Slutsky kết hợp với CLT sẽ cho bạn biết rằng thống kê t là không có triệu chứng bình thường (nhưng không nhất thiết phải ở một tỷ lệ rất hữu ích).

Định lý nào sẽ xác định rằng thống kê t được phân phối xấp xỉ t khi không có tính quy tắc, và nó xuất hiện nhanh như thế nào? (Tất nhiên, cuối cùng thì t- cũng sẽ gần với mức bình thường, nhưng chúng tôi giả định rằng phép tính gần đúng với một xấp xỉ khác sẽ tốt hơn là chỉ sử dụng xấp xỉ bình thường ...)


t

viết sai rồi


3
xTôi+xjxTôi-xjcov(xTôi+xj,xTôi-xj)= =vmộtr(xTôi)-vmộtr(xj)+cov(xTôi,xj)-cov(xj,xTôi)= =0vmộtr(xTôi)= =vmộtr(xj)

1
Thật không may, sự khác biệt giữa không tương thích và độc lập có liên quan nếu chúng ta kết thúc với phân phối t.
Glen_b

0

Vâng, Định lý giới hạn trung tâm cho chúng ta biết điều này là đúng. Vì vậy, miễn là bạn tránh được những đặc điểm cực kỳ nặng nề, tính phi bình thường không có vấn đề gì trong các mẫu từ trung bình đến lớn.

Đây là một bài đánh giá hữu ích;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Thử nghiệm Wilcoxon (được đề cập bởi những người khác) có thể có sức mạnh khủng khiếp khi sự thay thế không phải là sự thay đổi vị trí của phân phối ban đầu. Hơn nữa, cách nó đo lường sự khác biệt giữa các bản phân phối không mang tính bắc cầu.


Điểm thú vị về Wilcoxon. Tuy nhiên, bài kiểm tra t có những khó khăn tương tự: đặc biệt tệ trong việc phát hiện các ca đi kèm với phương sai gia tăng. Một chút về tính siêu việt dường như chủ yếu là sự tò mò trong bối cảnh hiện tại; thật khó để thấy nó liên quan đến bài kiểm tra giả thuyết ban đầu hay cách giải thích của nó. (Nhưng có lẽ tính không linh hoạt có thể trở nên quan trọng trong cài đặt ANOVA hoặc nhiều so sánh.)
whuber

Kiểm tra phương sai không bằng nhau (vốn là mặc định trong một số phần mềm) không có vấn đề với tính không đồng nhất.
khách

Về tính siêu việt; báo cáo phương tiện mẫu, hoặc sự khác biệt về phương tiện (điều này là tự nhiên khi sử dụng phương pháp kiểm tra t) cung cấp cho người đọc một cái gì đó họ có thể xem xét khi lấy mẫu từ các quần thể khác. Tính không chuyển đổi của xét nghiệm Wilcoxon có nghĩa là phương pháp này không có sự tương tự như vậy; sử dụng các cấp bậc của dữ liệu là một cách tiếp cận rất hạn chế.
khách

1
(1) Thử nghiệm Satterthwaite-Welch (phương sai không bằng nhau) không khắc phục được tổn thất điện năng mà tôi đã đề cập (mặc dù nó có thể giúp một chút). (2) Tôi nghĩ rằng bạn cực kỳ đặc trưng trong việc sử dụng các cấp bậc là "giới hạn". Trong bài trả lời của mình, @Frank Harrell đã đề cập đến các nghiên cứu cho thấy cách kiểm tra Wilcoxon duy trì hiệu quả cao trong nhiều cài đặt: điều này cho thấy cách sử dụng các cấp bậc vừa hiệu quả và linh hoạt hơn, không giới hạn hơn, so với các thử nghiệm t.
whuber

(1) Không, nhưng nó đưa ra tỷ lệ lỗi Loại I đúng, trong các mẫu từ trung bình đến lớn (2) Cảm ơn, nhưng tôi không đồng ý. Sử dụng các bài kiểm tra t qua Wilcoxon giúp thu hẹp khoảng cách giữa kiểm tra và sử dụng khoảng tin cậy dễ dàng hơn nhiều. Nếu một người chỉ muốn làm thử nghiệm, và không bao giờ nhìn xa hơn hai nhóm trong một nghiên cứu, tất nhiên Wilcoxon có những tình huống mà nó hoạt động tốt. Nhưng thường thì chúng tôi không muốn chỉ thử nghiệm và muốn giúp người dùng khái quát hóa kết quả cho các tình huống khác; xét nghiệm Wilcoxon sau đó không hữu ích.
khách

0

Về việc sử dụng xét nghiệm Wilcoxon-Mann-Whitney như một cách thay thế, tôi đề nghị bài báo Thử nghiệm Wilcoxon-Man-Whitney được xem xét kỹ lưỡng

Là một thử nghiệm về phương tiện hoặc trung vị, thử nghiệm WilcoxonTHER MannTHER Whitney (WMW) có thể không nghiêm trọng đối với các sai lệch so với mô hình dịch chuyển thuần túy.

Đây là những khuyến nghị của các tác giả của bài báo:

Việc chuyển đổi thứ hạng có thể thay đổi phương tiện, độ lệch chuẩn và độ lệch của hai mẫu khác nhau. Tình huống duy nhất trong đó việc chuyển đổi thứ hạng được đảm bảo để đạt được hiệu quả có lợi là khi phân phối giống hệt nhau và kích thước mẫu bằng nhau. Đối với những sai lệch so với các giả định khá nghiêm ngặt này, ảnh hưởng của việc chuyển đổi thứ hạng lên các khoảnh khắc mẫu là không thể đoán trước. Trong nghiên cứu mô phỏng bài báo, bài kiểm tra WMW được so sánh với bài kiểm tra FlignerTHER Policello (FP), bài kiểm tra Brunner hay Munzel (BM), bài kiểm tra T hai mẫu (T), bài kiểm tra Welch U (U), và bài kiểm tra Welch U trên hàng ngũ (RU). Bốn bài kiểm tra dựa trên xếp hạng (WMW, FP, BM và RU) thực hiện tương tự nhau, mặc dù bài kiểm tra BM thường tốt hơn một chút so với các bài kiểm tra khác. Khi kích thước mẫu bằng nhau, các thử nghiệm tham số (T và U) vượt trội so với các thử nghiệm dựa trên xếp hạng theo giả thuyết null về các phương tiện bình đẳng, nhưng không theo giả thuyết null của các trung vị bằng nhau. Khi kích thước mẫu không bằng nhau, các thử nghiệm BM, RU và U thực hiện tốt nhất. Đối với một số cài đặt, những thay đổi nhỏ trong thuộc tính dân số đã dẫn đến những thay đổi lớn trong hiệu suất của các thử nghiệm. Tóm lại, thử nghiệm WMW gần đúng mẫu lớn có thể là một phương pháp kém để so sánh phương tiện hoặc trung vị của hai quần thể, trừ khi hai phân phối có hình dạng và tỷ lệ bằng nhau. Vấn đề này dường như cũng áp dụng ở nhiều mức độ khác nhau đối với thử nghiệm WMW chính xác, thử nghiệm FP, thử nghiệm BM và thử nghiệm Welch U trên các cấp bậc. Khi sử dụng thử nghiệm WMW, các tác giả khuyến nghị rằng các thuộc tính của các mẫu được xếp hạng được nghiên cứu kỹ lưỡng cho các dấu hiệu của sự không đồng nhất và phương sai không đồng nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.