Cỡ mẫu tối thiểu cho phép thử t ghép đôi


16

Có "quy tắc" nào để xác định cỡ mẫu tối thiểu cần thiết cho thử nghiệm t có hợp lệ không?

Ví dụ, một so sánh cần phải được thực hiện giữa các phương tiện của 2 quần thể. Có 7 điểm dữ liệu từ một dân số và chỉ có 2 điểm dữ liệu khác. Thật không may, thí nghiệm rất tốn kém và mất thời gian, và việc thu được nhiều dữ liệu hơn là không khả thi.

Một bài kiểm tra t có thể được sử dụng? Tại sao hay tại sao không? Vui lòng cung cấp chi tiết (phương sai dân số và phân phối không được biết). Nếu không thể sử dụng thử nghiệm t, thử nghiệm không tham số (Mann Whitney) có thể được sử dụng không? Tại sao hay tại sao không?


2
Câu hỏi này bao gồm các tài liệu tương tự & sẽ được người xem trang này quan tâm: Có kích thước mẫu tối thiểu cần thiết để thử nghiệm t có hợp lệ không? .
gung - Phục hồi Monica

Xem thêm câu hỏi này , nơi thử nghiệm với kích thước mẫu thậm chí nhỏ hơn được thảo luận.
Glen_b -Reinstate Monica

Câu trả lời:


8

Tôi khuyên bạn nên sử dụng các phi tham số Mann-Whitney U thử nghiệm chứ không phải là một lẻ t -test đây.

Không có cỡ mẫu tối thiểu tuyệt đối cho t -test, nhưng khi kích thước mẫu nhỏ hơn, thử nghiệm trở nên nhạy cảm hơn với giả định rằng cả hai mẫu được rút ra từ các quần thể có phân phối bình thường. Với các mẫu nhỏ này, đặc biệt là với một mẫu chỉ có hai mẫu, bạn cần chắc chắn rằng phân phối dân số là bình thường - và điều đó phải dựa trên kiến ​​thức bên ngoài, vì các mẫu nhỏ như vậy cung cấp rất ít thông tin về bản thân sự bình thường hoặc cách khác của phân phối của họ. Nhưng bạn nói rằng "sự khác biệt dân số và phân phối không được biết đến" (chữ in nghiêng của tôi).

Thử nghiệm Mann-Whitney U không yêu cầu bất kỳ giả định nào về hình thức tham số của các bản phân phối, chỉ yêu cầu giả định rằng các bản phân phối của hai nhóm giống nhau theo giả thuyết null.


6
Không phải là một khuyến nghị tốt cho kích thước mẫu cực kỳ nhỏ. Với 7 và 2 mẫu, thử nghiệm U sẽ thất bại, bất kể sự khác biệt lớn như thế nào giữa giá trị trung bình của các nhóm. Nhìn vào câu trả lời của tôi cho một ví dụ.
AlefSin

2
Tôi sẽ thứ hai những gì @AlefSin nói. Nếu điều quan trọng là để bạn có thể rút ra kết luận hợp lệ (và không chỉ nhận được một giá trị p) thì càng phải chăng giả định bạn có thể làm tốt hơn. Nếu có thông tin cơ bản hợp lý, bạn cũng có thể thêm nhiều giả định hơn nữa nếu bạn đã phân tích trong khuôn khổ Bayes.
Rasmus Bååth

2
Một vấn đề là với kích thước mẫu nhỏ như vậy, Wilcoxon-Mann-Whitney không thể đạt được mức ý nghĩa điển hình. Với kích thước mẫu là 7 và 2, bạn sẽ không bao giờ nhận được kết quả đáng kể ở mức 5%, bất kể sự khác biệt rõ ràng như thế nào. Xem xét (1.018,1.031,1.027,1.020,1.021,1.019,1.024) so ​​với (713.2, 714.5) - không đáng kể ở mức 5%!
Glen_b -Reinstate Monica

3
Điều đó nói rằng, nếu một người có và , có một lập luận rất hay rằng có lẽ người ta nên xem xét liệu thử nghiệm 5% có ý nghĩa ngay từ đầu không. Một đánh giá đúng về chi phí của hai loại lỗi có thể dẫn đến một sự lựa chọn hoàn toàn khác nhau. n1= =7n2= =2
Glen_b -Reinstate Monica

6

(từ chối trách nhiệm: Hôm nay tôi không thể gõ tốt: bàn tay phải của tôi bị gãy!)

Trái với lời khuyên nên sử dụng một bài kiểm tra không tham số trong các câu trả lời khác, bạn nên xem xét rằng đối với các cỡ mẫu cực nhỏ, các phương pháp đó không hữu ích lắm. Thật dễ hiểu tại sao: trong các nghiên cứu với kích thước cực kỳ nhỏ, không có sự khác biệt giữa các nhóm có thể được thiết lập trừ khi có kích thước hiệu ứng lớn nếu được quan sát. Tuy nhiên, các phương pháp không tham số không quan tâm đến mức độ khác biệt giữa các nhóm. Do đó, ngay cả khi sự khác biệt giữa hai nhóm là rất lớn, với kích thước mẫu nhỏ, một thử nghiệm không tham số sẽ luôn không từ chối giả thuyết khống.

Xem xét ví dụ này: hai nhóm, phân phối bình thường, cùng phương sai. Nhóm 1: trung bình 1.0, 7 mẫu. Nhóm 2: trung bình 5, 2 mẫu. Có một sự khác biệt lớn giữa mức trung bình.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Giá trị p được tính là 0,05556 không bác bỏ giả thuyết khống (ở 0,05). Bây giờ, ngay cả khi bạn tăng khoảng cách giữa hai phương tiện lên 10 lần, bạn sẽ nhận được cùng một giá trị p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Bây giờ tôi mời bạn lặp lại mô phỏng tương tự với thử nghiệm t và quan sát các giá trị p trong trường hợp chênh lệch lớn (trung bình 5 so với 1) và chênh lệch lớn (trung bình 50 so với 1).


5

Không có cỡ mẫu tối thiểu cho thử nghiệm t; trên thực tế, thử nghiệm t được thiết kế cho các mẫu nhỏ. Ngày xưa khi các bảng được in, bạn đã thấy các bảng kiểm tra t cho các mẫu rất nhỏ (được đo bằng df).

Tất nhiên, như với các thử nghiệm khác, nếu có một mẫu nhỏ chỉ có hiệu ứng khá lớn sẽ có ý nghĩa thống kê.


Nhưng điều ngược lại cũng sẽ là một vấn đề? Tức là, có thể các ngoại lệ đã được lấy mẫu dẫn đến từ chối giả thuyết không? Hoặc là năng lượng thấp để phát hiện sự khác biệt là một vấn đề lớn hơn? Trong tình huống cụ thể này, tôi đang thấy một sự khác biệt đáng kể giữa các phương tiện nhưng không biết "tin tưởng" đến mức nào.
Johnny Puzzled

2
Với n = 2, bạn chắc chắn dễ bị ảnh hưởng bởi các ngoại lệ - ngoại lệ trong dân số; làm thế nào một mẫu 2 có thể có một ngoại lệ trong mẫu? :-) Tôi sẽ không thử bất kỳ số liệu thống kê suy luận nào trong tình huống này. Triển vọng rất kém khi nhận được "sự thật", và bạn sẽ để mình rộng mở trước những lời chỉ trích.
rolando2

2
Lý do khoảng tin cậy sẽ rộng là chính xác bởi vì bạn có thể có một ngoại lệ. Nhưng thử nghiệm t vẫn cho rằng các mẫu là từ một dân số bình thường.
Peter Flom - Tái lập Monica

2

Tôi giả sử bạn có nghĩa là bạn có 7 điểm dữ liệu từ một nhóm và 2 điểm dữ liệu từ nhóm thứ hai, cả hai đều là tập hợp con của quần thể (ví dụ: tập hợp con đực và tập hợp con cái).

Các phép toán cho bài kiểm tra t có thể được lấy từ trang Wikipedia này . Chúng tôi sẽ giả định một thử nghiệm t hai mẫu độc lập, với các cỡ mẫu không bằng nhau (7 so với 2) và phương sai không bằng nhau, do đó, khoảng một nửa trang đó. Bạn có thể thấy rằng việc tính toán dựa trên phương tiện và độ lệch chuẩn. Chỉ với 7 môn học trong một nhóm và 2 môn học khác, bạn không thể cho rằng mình có ước tính tốt cho giá trị trung bình hoặc độ lệch chuẩn. Đối với nhóm có 2 đối tượng, giá trị trung bình chỉ đơn giản là giá trị nằm chính xác ở giữa hai điểm dữ liệu, vì vậy nó không được ước tính tốt. Đối với nhóm có 7 đối tượng, kích thước mẫu ảnh hưởng mạnh đến phương sai (và do đó độ lệch chuẩn, là căn bậc hai của phương sai) vì các giá trị cực trị tạo ra hiệu ứng mạnh hơn nhiều khi bạn có mẫu nhỏ hơn.

Ví dụ: nếu bạn xem ví dụ cơ bản trên trang Wikipedia về độ lệch chuẩn, bạn sẽ thấy độ lệch chuẩn là 2 và phương sai (bình phương độ lệch chuẩn) là 4. Nhưng nếu chúng ta chỉ có hai điểm dữ liệu đầu tiên (9 và 1), phương sai sẽ là 10/2 = 5 và độ lệch chuẩn sẽ là 2.2 và nếu chúng ta chỉ có hai giá trị cuối cùng (4 và 16), phương sai sẽ là 20/2 = 10 và độ lệch chuẩn sẽ là 3,2. Chúng tôi vẫn đang sử dụng các giá trị tương tự, chỉ cần ít hơn trong số chúng và chúng tôi có thể thấy hiệu quả trên các ước tính của chúng tôi.

Đó là vấn đề với việc sử dụng số liệu thống kê suy luận với kích thước mẫu nhỏ, kết quả của bạn sẽ bị ảnh hưởng đặc biệt mạnh mẽ khi lấy mẫu.

Cập nhật: có bất kỳ lý do tại sao bạn không thể báo cáo kết quả theo chủ đề và chỉ ra rằng đây là công việc thăm dò? Chỉ với hai trường hợp, dữ liệu rất giống với nghiên cứu trường hợp và cả hai (1) đều quan trọng để viết lên và (2) thực hành được chấp nhận.


Cảm ơn Michelle. Điều này là thú vị và hữu ích để biết. Tuy nhiên, bạn muốn giới thiệu gì từ quan điểm thực tế? Với tình huống này, cách tốt nhất để tiến hành là gì? Cảm ơn!
Johnny Puzzled

Xin chào Johnny Puzzled. Không có thêm thông tin về tình huống chính xác của bạn, tôi cảm thấy không thể đưa ra thêm hướng dẫn.
Michelle

Những loại thông tin cần thiết?
Johnny Puzzled

1
Xin chào lần nữa, thêm thông tin về thiết kế nghiên cứu của bạn, chẳng hạn như dữ liệu của bạn là gì, cách bạn thu thập nó, nhóm của bạn là gì, cách quan sát đã được chọn. Tất cả những gì tôi biết là bạn đã làm một thí nghiệm với 9 quan sát (người? Chuột? Tế bào thần kinh? Khối phô mai? Tần số bức xạ?) Từ hai nhóm.
Michelle

Chúng ta hãy nói rằng lưu lượng máu trung bình đến chất trắng trong não được đo ở người sử dụng MRI. Các nhóm là nhóm chứng (7 người) và bệnh nhân phù hợp với lứa tuổi / giới tính mắc chứng rối loạn đặc biệt (2 người).
Johnny Puzzled

1

Bài viết liên quan thú vị: 'Sử dụng bài kiểm tra t của Sinh viên với kích cỡ samlpe cực thấp' JCF de Winter (trong Đánh giá thực tế, Nghiên cứu & Đánh giá) http://goo.gl/ZAUmGW


0

Tôi khuyên bạn nên so sánh các kết luận mà bạn nhận được với cả hai, bài kiểm tra t và bài kiểm tra Mann-Whitney, và cũng xem xét các ô vuông và khả năng hồ sơ của trung bình của mỗi dân số.


Xin chào @Dppy, tôi không chắc rằng thậm chí một boxplot sẽ hữu ích khi một nhóm có cỡ mẫu là 2. Nếu không, vâng tôi nghĩ rằng các boxplot đặc biệt rất hữu ích trong việc hiển thị dữ liệu liên tục giữa các nhóm.
Michelle

0

Mã Stata 13 / SE cho một ttest bootstrapVì một ttest được thực hiện trên các mẫu nhỏ có thể không đáp ứng các yêu cầu của ttest (chủ yếu là tính quy phạm của các quần thể mà hai mẫu được rút ra từ ong), tôi khuyên bạn nên thực hiện một ttest bootstrap (với phương sai không bằng nhau), theo Efron B, Tjshirani Rj. Một giới thiệu cho Bootstrap. Boca Raton, FL: Chapman & Hội trường / CRC, 1993: 220-224. Mã cho một tstest bootstrap trên dữ liệu được cung cấp bởi Johnny Puzzled trong Stata 13 / SE được báo cáo trong hình trên.


Câu trả lời của bạn có vấn đề định dạng nghiêm trọng, bạn có phiền chỉnh sửa nó không?
amip nói rằng Phục hồi Monica

Tôi đã cố gắng giải quyết các vấn đề định dạng trong phiên bản đánh giá của câu trả lời. Cảm ơn amip đã chỉ ra điều này.
Carlo Lazzaro

0

Với cỡ mẫu là 2, điều tốt nhất cần làm là xem xét các con số riêng lẻ và thậm chí không bận tâm đến phân tích thống kê.


1
Hiện tại điều này đọc giống như một bình luận. Mặc dù đây là một điểm tốt, nhưng để có câu trả lời hợp lý cho vấn đề ban đầu, một số cuộc thảo luận về chính vấn đề có thể được mong đợi, ngay cả khi cuối cùng người ta kết luận rằng việc làm một việc khác có ý nghĩa hơn.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.