Lý thuyết mẫu lớn / tiệm cận - Tại sao phải quan tâm?


13

Tôi hy vọng rằng câu hỏi này không được đánh dấu "quá chung chung" và hy vọng một cuộc thảo luận được bắt đầu có lợi cho tất cả.

Trong thống kê, chúng tôi dành nhiều thời gian để học các lý thuyết mẫu lớn. Chúng tôi rất quan tâm đến việc đánh giá các đặc tính tiệm cận của các công cụ ước tính của chúng tôi bao gồm cả liệu chúng có thiên vị không có triệu chứng, hiệu quả tiệm cận, phân phối tiệm cận của chúng hay không. Từ tiệm cận được gắn chặt với giả định rằng .n

Trong thực tế, tuy nhiên, chúng tôi luôn luôn đối phó với hữu hạn . Câu hỏi của tôi là:n

1) ý nghĩa của mẫu lớn là gì? Làm thế nào chúng ta có thể phân biệt giữa các mẫu nhỏ và lớn?

2) Khi chúng ta nói , chúng ta có nghĩa đen là nên đi đến ?nn

ví dụ để phân phối nhị thức, cần khoảng n = 30 để hội tụ đến phân phối bình thường theo CLT. Chúng ta nên có hay trong trường hợp này bởi chúng ta có nghĩa là 30 hoặc nhiều hơn?!X¯n

3) Giả sử chúng ta có một mẫu hữu hạn và giả sử rằng chúng ta biết mọi thứ về hành vi tiệm cận của người ước tính. Vậy thì sao? giả sử rằng các công cụ ước tính của chúng tôi không thiên vị, thì chúng tôi có một ước tính không thiên vị cho tham số quan tâm của chúng tôi trong mẫu hữu hạn của chúng tôi hay có nghĩa là nếu chúng tôi có , thì chúng tôi sẽ có một thiên vị?n

Như bạn có thể thấy từ các câu hỏi trên, tôi đang cố gắng tìm hiểu triết lý đằng sau "Không triệu chứng mẫu lớn" và tìm hiểu lý do tại sao chúng ta quan tâm? Tôi cần có được một số trực giác cho các định lý tôi đang học.


5
Hành vi mẫu lớn là một cách để chỉ ra rằng một công cụ ước tính nhất định hoạt động, hoặc bất cứ điều gì khác, trong giới hạn của dữ liệu vô hạn. Bạn đúng rằng nó không nhất thiết phải cho chúng tôi biết bất cứ điều gì về công cụ ước tính tốt như thế nào, nhưng đó là bước đầu tiên: bạn sẽ không muốn sử dụng công cụ ước tính không nhất quán (hoặc bất cứ điều gì). Ưu điểm của phân tích tiệm cận là thường dễ dàng tìm ra hơn so với mẫu hữu hạn.
Dougal

Bạn nên bắt đầu đọc về các triệu chứng tiệm cận bậc cao, vì rõ ràng bạn chỉ quen thuộc với quy tắc tiệm cận bậc nhất và như vậy; với điều đó, bạn không chưa biết mọi thứ về hành vi tiệm cận. Nó giống như nói, "Tôi biết rằng ; tại sao mọi người nói sin là định kỳ ???". STôinx= =x
StasK

1
Đối với phân phối nhị thức, là một tiêu chí kém. Nếu bạn có và , giá trị trung bình = 0,03 và sd = 0,173, vì vậy ở mệnh giá, xác suất biến nhị thức dưới 0 thông qua xấp xỉ bình thường là 43%, hầu như không phải là xấp xỉ chấp nhận được cho 0 . Các quy tắc tốt hơn đề xuất và chúng giải thích cho các vấn đề có thứ tự cao hơn này. n>30p= =0,001n= =30ntối thiểu(p,1-p)>15
StasK

Câu trả lời:


6

Muộn còn hơn không. Trước tiên, hãy để tôi liệt kê ba lý do (tôi nghĩ quan trọng) tại sao chúng ta tập trung vào tính không thiên vị tiệm cận (tính nhất quán) của các công cụ ước tính.

a) Tính nhất quán là một tiêu chí tối thiểu. Nếu một người ước tính không ước tính chính xác ngay cả với nhiều dữ liệu, thì nó có ích gì? Đây là lời biện minh được đưa ra trong Wooldridge: Giới thiệu Kinh tế lượng.

b) Tính chất mẫu hữu hạn khó hơn nhiều để chứng minh (hay đúng hơn, các tuyên bố tiệm cận dễ dàng hơn). Tôi hiện đang tự mình thực hiện một số nghiên cứu và bất cứ khi nào bạn có thể dựa vào các công cụ mẫu lớn, mọi thứ trở nên dễ dàng hơn nhiều. Các định luật về số lượng lớn, các định lý hội tụ martingale, v.v. là những công cụ tuyệt vời để có được kết quả tiệm cận, nhưng không giúp với các mẫu hữu hạn. Tôi tin rằng một cái gì đó dọc theo những dòng này được đề cập trong Hayashi (2000): Kinh tế lượng.

c) Nếu các công cụ ước tính bị sai lệch cho các mẫu nhỏ, người ta có thể có khả năng sửa hoặc ít nhất là cải thiện với cái gọi là hiệu chỉnh mẫu nhỏ. Chúng thường phức tạp về mặt lý thuyết (để chứng minh rằng chúng cải thiện trên công cụ ước tính mà không cần hiệu chỉnh). Ngoài ra, hầu hết mọi người đều ổn khi dựa vào các mẫu lớn, do đó việc sửa mẫu nhỏ thường không được thực hiện trong phần mềm thống kê tiêu chuẩn, vì chỉ có vài người yêu cầu chúng (những người không thể nhận được nhiều dữ liệu hơn và quan tâm đến việc không thiên vị). Vì vậy, có những rào cản nhất định để sử dụng những sửa chữa không phổ biến.

Về câu hỏi của bạn. "Mẫu lớn" nghĩa là gì? Điều này phụ thuộc rất nhiều vào bối cảnh và đối với các công cụ cụ thể, nó có thể được trả lời thông qua mô phỏng. Nghĩa là, bạn tạo dữ liệu một cách giả tạo và xem cách nói, tỷ lệ loại bỏ hoạt động như một hàm của cỡ mẫu hoặc sai lệch hoạt động như một hàm của cỡ mẫu. Một ví dụ cụ thể ở đây , nơi các tác giả thấy có bao nhiêu cụm cho các lỗi tiêu chuẩn phân cụm OLS, chặn các lỗi tiêu chuẩn bootstraped, vv để thực hiện tốt. Một số nhà lý thuyết cũng có những tuyên bố về tốc độ hội tụ, nhưng với mục đích thực tế, các mô phỏng dường như có nhiều thông tin hơn.

Nó thực sự mất ? Nếu đó là những gì lý thuyết nói, đúng, nhưng trong ứng dụng, chúng ta có thể chấp nhận sai lệch nhỏ, không đáng kể, mà chúng ta có với cỡ mẫu đủ lớn với xác suất cao. Những gì đủ có nghĩa là phụ thuộc vào bối cảnh, xem ở trên.n

Ở câu hỏi 3: thông thường, câu hỏi về không thiên vị (cho tất cả các cỡ mẫu) và tính nhất quán (không thiên vị cho các mẫu lớn) được xem xét riêng. Một công cụ ước tính có thể bị sai lệch, nhưng nhất quán, trong trường hợp đó thực sự chỉ có các ước tính mẫu lớn là không thiên vị. Nhưng cũng có những người ước tính không thiên vị và nhất quán, về mặt lý thuyết có thể áp dụng cho bất kỳ cỡ mẫu nào. ( Một công cụ ước tính cũng có thể không thiên vị nhưng không nhất quán vì lý do kỹ thuật. )

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.