Cỡ mẫu không bằng nhau: Khi nào gọi nó là thoát


14

Tôi đang xem xét một bài báo trên tạp chí học thuật và các tác giả đã viết như sau để biện minh cho việc không báo cáo bất kỳ số liệu thống kê suy luận nào (tôi đã xác định rõ bản chất của hai nhóm):

Tổng cộng, 25 của 2349 (1,1%) được hỏi cho biết X . Chúng tôi không kiềm chế trình bày các phân tích so sánh thống kê nhóm X với nhóm Y (2.324 người tham gia khác) vì những kết quả đó có thể bị chi phối rất nhiều bởi cơ hội có kết quả hiếm gặp này.

Câu hỏi của tôi là các tác giả của nghiên cứu này có lý khi ném vào khăn liên quan đến việc so sánh các nhóm? Nếu không, tôi có thể giới thiệu gì cho họ?

Câu trả lời:


20

Kiểm tra thống kê không đưa ra giả định về kích thước mẫu. Tất nhiên, có những giả định khác nhau với các thử nghiệm khác nhau (ví dụ: tính quy tắc), nhưng sự bằng nhau của kích thước mẫu không phải là một trong số chúng. Trừ khi thử nghiệm được sử dụng không phù hợp theo một cách khác (tôi không thể nghĩ ra vấn đề ngay bây giờ), tỷ lệ lỗi loại I sẽ không bị ảnh hưởng bởi các kích thước nhóm không đồng đều. Hơn nữa, phrasing của họ ngụ ý (với tâm trí của tôi) rằng họ tin rằng nó sẽ. Vì vậy, họ bối rối về những vấn đề này.

Mặt khác, tỷ lệ lỗi loại II rất nhiều sẽ bị ảnh hưởng bởi s rất không đồng đều . Điều này sẽ đúng cho dù thử nghiệm là gì (ví dụ: t -test, Mann-Whitney U -test hoặc z -test về sự bình đẳng về tỷ lệ đều sẽ bị ảnh hưởng theo cách này). Để biết ví dụ về điều này, hãy xem câu trả lời của tôi ở đây: Làm thế nào người ta nên diễn giải việc so sánh các phương tiện từ các cỡ mẫu khác nhau? Vì vậy, họ cũng có thể "hợp lý trong việc ném vào khăn" đối vớintUz này vấn đề. (Cụ thể, nếu bạn mong đợi nhận được kết quả không đáng kể cho dù hiệu quả có thật hay không, điểm của bài kiểm tra là gì?)

Khi kích thước mẫu phân kỳ, công suất thống kê sẽ hội tụ đến . Thực tế này thực sự dẫn đến một đề nghị khác, mà tôi nghi ngờ ít người từng nghe đến và có lẽ sẽ gặp khó khăn khi nhận được những người đánh giá trong quá khứ (không có ý định xúc phạm): phân tích sức mạnh thỏa hiệp . Ý tưởng là tương đối đơn giản: Trong bất kỳ phân tích năng lượng, α , β , n 1 , n 2 , và mức độ ảnh hưởng d , tồn tại trong mối quan hệ với nhau. Có chỉ định tất cả nhưng một, bạn có thể giải quyết cuối cùng. Thông thường, mọi người thực hiện những gì được gọi là phân tích sức mạnh a-prori , trong đó bạn giải quyết cho Nααβn1n2dN(nói chung bạn đang giả sử ). Mặt khác, bạn có thể sửa chữa n 1 , n 2 , và d , và giải quyết cho α (hoặc tương đương β ), nếu bạn xác định tỷ lệ của loại I đến loại II tỷ lệ lỗi rằng bạn sẵn sàng sống chung với. Thông thường, α = 0,05β = 0,20 , vì vậy bạn đang nói rằng lỗi loại I là tồi tệ hơn bốn lần so với các lỗi loại I. Tất nhiên, một nhà nghiên cứu nhất định có thể không đồng ý với điều đó, nhưng khi đã chỉ định một tỷ lệ nhất định, bạn có thể giải quyết cho những gì αn1=n2n1n2dαβα=.05β=.20αbạn nên sử dụng để có thể duy trì một số năng lượng đầy đủ. Cách tiếp cận này là một lựa chọn hợp lý cho các nhà nghiên cứu trong tình huống này, mặc dù tôi thừa nhận sự kỳ lạ của phương pháp này có thể khiến nó trở nên khó bán trong cộng đồng nghiên cứu lớn hơn mà có lẽ chưa bao giờ nghe về điều đó.


Điều này là vô cùng hữu ích. Tôi cũng tìm thấy phản hồi của bạn về Làm thế nào người ta nên diễn giải việc so sánh các phương tiện từ các cỡ mẫu khác nhau? hữu ích trong sự hiểu biết của riêng tôi về vấn đề này. Sau khi đọc phản hồi của bạn, tôi sẽ đưa ra khả năng phân tích sức mạnh thỏa hiệp cho các tác giả (có vẻ như là một vụ cá cược an toàn mà họ không quen thuộc với nó) và có thể đề nghị cụ thể hơn trong các nhận xét của họ liên quan đến mối quan tâm về quyền lực.
Aaron Duke

2
Không có gì đâu, @AaronD. Theo tôi, bạn chắc chắn nên khuyến khích họ thay đổi cụm từ ở mức tối thiểu vì nó gây hiểu lầm hoặc ngụ ý rằng họ hiểu sai chủ đề. Tôi sẽ dự đoán rằng họ sẽ không thử phân tích sức mạnh thỏa hiệp, nhưng họ cũng có thể chỉ báo cáo thống kê mô tả (phương tiện & SD) và kích thước hiệu ứng với khoảng tin cậy thích hợp.
gung - Phục hồi Monica

6

Mặc dù câu trả lời từ @gung là tuyệt vời, tôi nghĩ có một vấn đề quan trọng cần được xem xét khi xem xét các quy mô nhóm khác nhau. Nói chung, miễn là tất cả các yêu cầu của thử nghiệm được đáp ứng, sự khác biệt về kích thước nhóm là không quan trọng.

Tuy nhiên, trong một số trường hợp, quy mô nhóm khác nhau sẽ có tác động mạnh mẽ đến sự mạnh mẽ của thử nghiệm chống lại các vi phạm chống lại các giả định này. Ví dụ, phép thử t ghép hai mẫu cổ điển giả định tính đồng nhất phương sai và chỉ mạnh đối với các vi phạm nếu cả hai nhóm có kích thước tương tự nhau (theo thứ tự độ lớn). Nếu không, phương sai cao hơn trong nhóm nhỏ hơn sẽ dẫn đến lỗi Loại I. Bây giờ với bài kiểm tra t, đây không phải là vấn đề vì thông thường bài kiểm tra tiếng Wales được sử dụng thay thế và nó không giả định sự đồng nhất phương sai. Tuy nhiên, hiệu ứng tương tự có thể phát sinh trong các mô hình tuyến tính.

Tóm lại, tôi sẽ nói rằng điều này không có gì cản trở việc phân tích thống kê, nhưng nó phải được ghi nhớ khi quyết định cách tiến hành.


8
Tôi tin rằng mấu chốt của vấn đề ở đây không phải là khả năng áp dụng các bài kiểm tra mà là ý nghĩa và khả năng diễn giải của chúng. Câu hỏi đề cập đến "người trả lời." Điều này cho thấy mạnh mẽ khả năng của một tỷ lệ không đáp ứng khác không. Ngay cả một tỷ lệ không phản hồi nhỏ (một phần nhỏ của một phần trăm) so với quy mô nghiên cứu cũng sẽ tương đương với tỷ lệ không phản hồi rất lớn so với nhóm nhỏ. Điều đó đặt ra câu hỏi về tính đại diện của bất kỳ nhóm nhỏ nào. Kết quả là, nó gây trở ngại rất lớn cho bất kỳ phân tích thống kê nào.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.