Những tài liệu tham khảo nào nên được trích dẫn để hỗ trợ sử dụng 30 như một cỡ mẫu đủ lớn?


41

Tôi đã đọc / nghe nhiều lần rằng kích thước mẫu của ít nhất 30 đơn vị được coi là "mẫu lớn" (giả định về tính quy tắc của phương tiện thường xấp xỉ do CLT, ...). Do đó, trong các thí nghiệm của tôi, tôi thường tạo ra các mẫu gồm 30 đơn vị. Bạn có thể vui lòng cho tôi một số tài liệu tham khảo nên được trích dẫn khi sử dụng cỡ mẫu 30 không?


2
Không tham chiếu đến số lượng tham số bạn cố gắng ước tính, hoặc tương đương với loại mô hình bạn đang làm việc, có vẻ như rất khó để cung cấp cho bạn một câu trả lời rõ ràng.
chl

2
Việc chấp nhận n = 30 làm ranh giới của các mẫu nhỏ và lớn không được hỗ trợ tốt bởi bất kỳ kỹ thuật thống kê nào.
Jibol

Câu trả lời:


37

Lựa chọn n = 30 cho một ranh giới giữa các mẫu nhỏ và lớn chỉ là một quy tắc. Có một số lượng lớn sách trích dẫn (xung quanh) giá trị này, ví dụ, Xác suất và suy luận thống kê của Hogg và Tanis (7e) nói "lớn hơn 25 hoặc 30".

Điều đó nói rằng, câu chuyện kể với tôi là lý do duy nhất 30 được coi là một ranh giới tốt là vì nó được tạo ra cho các bảng t Học sinh xinh đẹp ở phía sau sách giáo khoa để phù hợp độc đáo trên một trang. Điều đó và các giá trị tới hạn (giữa Sinh viên t và Bình thường) chỉ bị tắt khoảng 0,25, dù sao, từ df = 30 đến df = vô cùng. Đối với tính toán tay, sự khác biệt không thực sự quan trọng.

Ngày nay, thật dễ dàng để tính toán các giá trị quan trọng cho tất cả các loại điều đến 15 vị trí thập phân. Trên hết, chúng tôi có các phương pháp thay đổi và hoán vị mà chúng tôi thậm chí không bị giới hạn trong các phân phối dân số tham số.

Trong thực tế tôi không bao giờ dựa vào n = 30. Vẽ dữ liệu. Chồng chất một phân phối bình thường, nếu bạn muốn. Trực quan đánh giá xem một xấp xỉ bình thường là phù hợp (và hỏi xem một xấp xỉ có thực sự cần thiết hay không). Nếu việc tạo mẫu cho nghiên cứu và xấp xỉ là bắt buộc, hãy tạo đủ kích thước mẫu để làm cho xấp xỉ gần như mong muốn (hoặc gần như khả thi về mặt tính toán).


13
Đây là một trang về chính xác mức độ xấp xỉ bình thường của phân phối t cho n = 30. johndcook.com/n normal_approx_to_t.html
John D. Cook

41

Thật ra, "số ma thuật" 30 là một ngụy biện. Xem bài viết thú vị của Jacob's Cohen, Những điều tôi đã học được (Cho đến nay) (Am. Tâm lý. Tháng 12 năm 1990 45 # 12, trang 1304-1312) . Huyền thoại này là ví dụ đầu tiên của ông về cách "một số điều bạn học không như vậy".

[O] ne của các ứng cử viên tiến sĩ đồng nghiệp của tôi đã thực hiện một luận án [với] một mẫu chỉ có 20 trường hợp mỗi nhóm. ... [L] ater tôi đã phát hiện ra ... rằng để so sánh trung bình hai nhóm độc lập với mỗi nhóm ở mức thánh hóa , xác suất mà hiệu ứng cỡ trung bình sẽ được dán nhãn quan trọng bằng ... một bài kiểm tra t chỉ . Do đó, việc xấp xỉ một đồng xu là liệu người ta có nhận được một kết quả quan trọng hay không, mặc dù trong thực tế, kích thước hiệu ứng là có ý nghĩa. ... [Bạn của tôi] đã kết thúc với kết quả không đáng kể mà anh ta đã tiến hành phá hủy một nhánh quan trọng của lý thuyết phân tâm học.n=30.05.47


2
Tham khảo đẹp - và tại chỗ có liên quan. Cảm ơn bạn.
whuber

1
@whuber Bạn có nhớ đó là giấy gì không? Liên kết bị phá vỡ bởi bây giờ. Có lẽ điều này psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "Những điều tôi đã học (cho đến nay)"? Năm khớp với một trong URL của liên kết bị hỏng.
amip nói phục hồi Monica

1
@Amoeba Tôi đã lưu bài báo này khi tôi đọc nó, vì vậy tôi có thể xác nhận những gì bạn tìm thấy là mục đích. Tôi đã cập nhật câu trả lời này để bao gồm một trích dẫn cùng với liên kết của bạn.
whuber

@Carlos Accioly Tôi đã cập nhật nó với liên kết mới vì liên kết trước đã bị hỏng.
Akshay Bansal

9

IMO, tất cả phụ thuộc vào những gì bạn muốn sử dụng mẫu của bạn cho. Hai ví dụ "ngớ ngẩn" để minh họa điều tôi muốn nói: Nếu bạn cần ước tính một giá trị trung bình, 30 quan sát là quá đủ. Nếu bạn cần ước tính hồi quy tuyến tính với 100 dự đoán, 30 quan sát sẽ không đủ gần.


9

Chủ yếu là quy tắc tùy ý của ngón tay cái. Tuyên bố này phụ thuộc vào một số yếu tố là đúng. Ví dụ về việc phân phối dữ liệu. Ví dụ, nếu dữ liệu đến từ một Cauchy, thậm chí 30 ^ 30 quan sát là không đủ để ước tính giá trị trung bình (trong trường hợp đó, ngay cả số lượng quan sát vô hạn sẽ không đủ để gây ra để hội tụ). Con số này (30) cũng sai nếu các giá trị bạn vẽ không độc lập với nhau (một lần nữa, bạn có thể không có sự hội tụ nào cả, bất kể kích thước mẫu).μ¯(n)

Tổng quát hơn, CLT cần cơ bản hai trụ cột để giữ:

  1. Rằng các biến ngẫu nhiên là độc lập: rằng bạn có thể sắp xếp lại các quan sát của mình mà không mất bất kỳ thông tin nào *.
  2. Rv đến từ một phân phối với các giây thứ hai hữu hạn: có nghĩa là các ước lượng cổ điển của giá trị trung bình và sd có xu hướng hội tụ khi kích thước mẫu tăng.

(Cả hai điều kiện này có thể bị suy yếu đôi chút, nhưng sự khác biệt chủ yếu là về bản chất lý thuyết)


6
Ví dụ của bạn minh họa giá trị của số liệu thống kê mạnh mẽ. Giá trị trung bình mẫu ước tính tham số vị trí của giếng phân phối Cauchy. Người ta có thể lập luận rằng liên kết yếu nhất trong việc sử dụng thử nghiệm t với 30 mẫu là thử nghiệm t, chứ không phải 30 mẫu.
John D. Cook

1
John:> "Người ta có thể lập luận rằng liên kết yếu nhất trong việc sử dụng thử nghiệm t với 30 mẫu là thử nghiệm t, không phải 30 mẫu". Rất đúng, và cũng là giả định rằng dữ liệu là iid . Ngoài ra, trung vị là MLE cho các biến ngẫu nhiên phân tán Cauchy (và do đó hiệu quả), nhưng nói chung bạn có thể cần hơn 30 quan sát.
user603

1
Không phải tất cả các phiên bản của CLT đều dựa vào việc được phân phối chính xác, thậm chí không độc lập. Những cái cơ bản được dạy cho sinh viên đại học thường làm, nhưng có những phiên bản không đưa ra cả hai giả định, ví dụ như Lyapunov CLT giả định sự độc lập nhưng không phân phối giống hệt nhau, và điều kiện độc lập cũng có thể được nới lỏng, ví dụ như xem ở đây . Điều 'sắp xếp lại' đó cũng không giống như sự độc lập. Một số hình thức phụ thuộc không dựa vào trật tự.
Glen_b

2
Cỡ mẫu 50.000 không đủ để CLT hoạt động đủ tốt để tính khoảng tin cậy cho giá trị trung bình của phân phối chuẩn log.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.