Làm thế nào lớn một mẫu nên cho một kỹ thuật ước tính và các tham số nhất định?


11

Có một quy tắc ngón tay cái hay thậm chí là bất kỳ cách nào để cho biết một mẫu nên lớn đến mức nào để ước tính một mô hình với một số tham số nhất định không?

Vì vậy, ví dụ, nếu tôi muốn ước tính hồi quy bình phương nhỏ nhất với 5 tham số, mẫu phải lớn đến mức nào?

Có vấn đề gì về kỹ thuật ước tính mà bạn đang sử dụng (ví dụ: khả năng tối đa, bình phương nhỏ nhất, GMM), hoặc bao nhiêu hoặc thử nghiệm nào bạn sẽ thực hiện? Có nên tính đến sự thay đổi mẫu khi đưa ra quyết định?

Câu trả lời:


10

Câu trả lời tầm thường là nhiều dữ liệu luôn được ưu tiên hơn ít dữ liệu hơn.

Vấn đề kích thước mẫu nhỏ là rõ ràng. Trong hồi quy tuyến tính (OLS) về mặt kỹ thuật, bạn có thể phù hợp với một mô hình như OLS trong đó n = k + 1 nhưng bạn sẽ nhận được rác từ đó tức là các lỗi tiêu chuẩn rất lớn. Có một bài viết tuyệt vời của Arthur Goldberger có tên là Micronumerocity về chủ đề này được tóm tắt trong chương 23 của cuốn sách A Course in Kinh tế lượng .

Một heuristic phổ biến là bạn nên có 20 quan sát cho mỗi tham số bạn muốn ước tính. Nó luôn luôn là một sự đánh đổi giữa kích thước của các lỗi tiêu chuẩn của bạn (và do đó kiểm tra ý nghĩa) và kích thước của mẫu của bạn. Đây là một lý do khiến một số người trong chúng ta ghét thử nghiệm ý nghĩa vì bạn có thể nhận được một lỗi tiêu chuẩn cực kỳ nhỏ (tương đối) với một mẫu rất lớn và do đó tìm thấy ý nghĩa thống kê vô nghĩa đối với các thử nghiệm ngây thơ như liệu hệ số hồi quy có bằng không.

Mặc dù cỡ mẫu là quan trọng, chất lượng mẫu của bạn quan trọng hơn, ví dụ mẫu có thể chung cho dân số hay không, đó là Mẫu ngẫu nhiên đơn giản hay một số phương pháp lấy mẫu thích hợp khác (và đã được tính đến trong quá trình phân tích), có phải là lỗi đo lường không , phản ứng thiên vị, lựa chọn thiên vị, vv


3

Tôi thích sử dụng việc lấy mẫu lại: Tôi lặp lại bất kỳ phương pháp nào tôi đã sử dụng với một mẫu con của dữ liệu (giả sử là 80% hoặc thậm chí 50% tổng số). Bằng cách làm điều này với nhiều mẫu phụ khác nhau, tôi cảm nhận được mức độ mạnh mẽ của các ước tính. Đối với nhiều thủ tục ước tính, điều này có thể được thực hiện thành ước tính thực (có nghĩa là có thể xuất bản) về các lỗi của bạn.


2

Nó phải luôn luôn đủ lớn! ;)

Tất cả các ước tính tham số đi kèm với độ không đảm bảo ước tính, được xác định bởi cỡ mẫu. Nếu bạn thực hiện phân tích hồi quy, sẽ giúp bạn tự nhắc nhở rằng phân phối 2 được xây dựng từ tập dữ liệu đầu vào. Nếu mô hình của bạn có 5 tham số và bạn có 5 điểm dữ liệu, bạn sẽ chỉ có thể tính một điểm duy nhất của phân phối Χ 2 . Vì bạn sẽ cần giảm thiểu nó, bạn chỉ có thể chọn một điểm đó làm dự đoán cho mức tối thiểu, nhưng sẽ phải gán các lỗi vô hạn cho các tham số ước tính của bạn. Có nhiều điểm dữ liệu sẽ cho phép bạn ánh xạ không gian tham số tốt hơn dẫn đến ước tính tốt hơn về mức tối thiểu của phân phối Χ 2 và do đó các lỗi ước lượng nhỏ hơn.

Bạn có đang sử dụng công cụ ước tính Khả năng tối đa thay vì tình huống sẽ tương tự: Nhiều điểm dữ liệu hơn dẫn đến ước tính tối thiểu tốt hơn.

Đối với phương sai điểm, bạn cũng cần phải mô hình hóa điều này. Có nhiều điểm dữ liệu sẽ làm cho việc phân cụm các điểm xung quanh giá trị "thực" trở nên rõ ràng hơn (do Định lý giới hạn trung tâm) và nguy cơ diễn giải một sự thay đổi lớn, cơ hội vì giá trị thực của điểm đó sẽ giảm. Và đối với bất kỳ tham số nào khác, ước tính của bạn cho phương sai điểm sẽ trở nên ổn định hơn khi bạn có nhiều điểm dữ liệu hơn.


2

Tôi đã nghe hai quy tắc về vấn đề này. Một người cho rằng miễn là có đủ các quan sát trong thuật ngữ lỗi để gợi lên định lý giới hạn trung tâm, ví dụ 20 hoặc 30, bạn vẫn ổn. Mặt khác cho rằng đối với mỗi độ dốc ước tính, người ta phải có ít nhất 20 hoặc 30 quan sát. Sự khác biệt giữa việc sử dụng 20 hoặc 30 làm số mục tiêu dựa trên những suy nghĩ khác nhau về việc khi có đủ các quan sát để gợi lên một cách hợp lý Định lý giới hạn trung tâm.


1
Hai câu trả lời quá khác nhau đối với tôi. Một người nói 20 đến 30, người kia nói 20 đến 30 lần dốc. Vì vậy, nếu bạn có 5 độ dốc, một quy tắc sẽ cho bạn biết 20 đến 30, 100 đến 150 quan sát khác. Điều đó dường như không đúng với tôi ....
Vivi

1
Họ là những hướng dẫn khá khác nhau. Tôi nghi ngờ việc ngắt kết nối là liệu bạn nghĩ rằng thử nghiệm của mô hình tổng thể có vấn đề (hướng dẫn N thấp hơn) hay thử nghiệm các sườn riêng lẻ có vấn đề (hướng dẫn N cao hơn).
russellpierce
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.