Hồi quy toàn dân

Ý nghĩa của lỗi tiêu chuẩn của một hệ số trong hồi quy khi bao gồm toàn bộ dân số là gì?

Tôi đã rất bối rối trước câu hỏi này. Bởi vì dường như đối với tôi, các lỗi tiêu chuẩn không có ý nghĩa khi bao gồm toàn bộ dân số - không cần suy luận thống kê vì bạn đã có toàn bộ dân số.

Nhưng nó được sử dụng rộng rãi ngay cả bởi nhiều bài báo được công bố trên các tạp chí hàng đầu. Ví dụ: nếu tôi đang kiểm tra mối quan hệ giữa tốc độ tăng trưởng GDP của một quốc gia và mật độ dân số của quốc gia đó, tôi sẽ thực hiện hồi quy:

G D P_{i} = α + β P o p_{i} + γ X_{i} + ϵ_{i}

$GDP_i = \alpha + \beta Pop_i + \gamma \mathbf{X}_i + \epsilon_i$

với tất cả 195 quốc gia trên trái đất. Trong trường hợp, tất cả các quốc gia (dân số) được bao gồm. Nhưng tất cả các tài liệu vẫn nói về ý nghĩa thống kê của các hệ số.

Ai đó có thể giải thích nó là một lạm dụng suy luận thống kê khi thoái lui trên toàn bộ dân số?

econometrics regression

— Akira Osawa
nguồn

Câu hỏi này đã được trả lời trong mạng thống kê. Xem ở đây . Về cơ bản, số liệu thống kê không có liên quan. "Hồi quy" là một thiết bị toán học thuần túy.

— luchonacho

@luchonacho Ý kiến của tôi là câu hỏi này thuộc chủ đề ở đây liên quan đến nội dung, chúng tôi tự nhiên có som \ e trùng lặp với số liệu thống kê.SE). Tôi đồng ý rằng về cơ bản nó là một bản sao. Tôi đã tìm thấy một cuộc thảo luận về những việc cần làm với các bản sao chéo trang web ở đây: meta.stackexchange.com/questions/172307/ chủ

— jmbejara

@jmbejara Cảm ơn bạn đã tham khảo. Tốt để biết.

— luchonacho

Điều này có vẻ như một tài liệu tham khảo thích hợp khác. Nó thảo luận về một kỹ thuật liên quan được gọi là suy luận ngẫu nhiên như được thảo luận trong Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/ cường

— jmbejara

Câu trả lời:

Ban đầu tôi đã gắn cờ câu hỏi này cho người điều hành để kiểm tra xem có nên chuyển sang trang thống kê SE Xác thực chéo hay không. Nhưng vì OP đã giới thiệu một ví dụ kinh tế lượng rất cụ thể, tôi tin rằng khái niệm "dân số / mẫu" rất sâu sắc có thể được thảo luận hữu ích cho mục đích của ví dụ này.

Một vấn đề đầu tiên là thảo luận trong câu trả lời @AdamBailey: nếu một người xem xét "tất cả các quốc gia trên thế giới" trong một năm hoặc nhiều năm nhất định và nó gắn nhãn dữ liệu là "dân số", thì năm tiếp theo sẽ thuộc về một dân số khác. Nếu nó thuộc về một dân số khác, thì chúng ta sẽ sử dụng kết quả từ một dân số như thế nào để suy luận cho một dân số khác? Vì vậy, thực sự, ở đây "dân số" của chúng ta là hai chiều , quốc gia và khoảng thời gian - và theo nghĩa đó, với thời gian kết thúc mở, chúng ta chỉ có một mẫu trong tay.

$GDP_i, i=1,..n$

Vì vậy, dữ liệu của chúng tôi chỉ là một trong những nhận thức kết hợp có thể có của các biến ngẫu nhiên này. Những nhận thức này không chỉ xuất phát từ kết quả của mối quan hệ xác định / kỹ thuật / quan hệ nhân quả (được phản ánh trong các hệ số), mà còn dưới tác động của các yếu tố ngẫu nhiên vốn có. Theo nghĩa đó, dữ liệu không phải là hình ảnh "thuần túy / điển hình" của "dân số" - nó chứa nhiễu, nhiễu phi cấu trúc, các cú sốc một lần, v.v.

Sau đó, sự không chắc chắn này sẽ chuyển sang ước tính các hệ số mà chúng tôi đang cố gắng ước tính, bởi vì chúng tôi giả định rằng các hệ số này mô tả quan hệ nhân quả hoặc chuyển động trước các yếu tố ngẫu nhiên ảnh hưởng đến giá trị cuối cùng của biến phụ thuộc.

Do cả hai khía cạnh trên, nói về "lỗi tiêu chuẩn của ước tính" là hoàn toàn hợp lệ, trong trường hợp này cũng vậy, và sau đó áp dụng các kiểm tra thống kê như bình thường.

— Alecos Papadopoulos
nguồn

Điều quan trọng là phải xem xét chính xác dân số là gì về một suy luận đang được rút ra. Thật dễ dàng để bỏ qua khía cạnh thời gian trong bối cảnh này.

Ví dụ, giả sử rằng mục tiêu là dự báo GDP hai năm tới cho mỗi quốc gia trên thế giới. Sau đó, dân số quan tâm là một tập hợp các cặp có dạng "quốc gia, năm". Nó không chỉ đơn giản là "tất cả các quốc gia" và ngay cả khi mô hình dự báo đã được ước tính bằng hồi quy trên dữ liệu của các quốc gia hiện tại và trong quá khứ, điều đó không có nghĩa là toàn bộ lợi ích đã được đưa vào.

Nếu một người thực sự bắt đầu từ một bộ dữ liệu hoàn chỉnh cho toàn bộ người quan tâm, thì tất cả những gì có thể làm là tính toán thống kê tóm tắt. Điều đó có thể bao gồm độ lệch chuẩn, nhưng sẽ không phù hợp khi gọi các lỗi tiêu chuẩn này, vì thuật ngữ đó liên quan đến phân phối mẫu trong khi "mẫu" duy nhất trong trường hợp này là toàn bộ dân số.

— Adam Bailey
nguồn

Cảm ơn rât nhiều. Để làm cho nó rõ ràng hơn, tôi đã cập nhật câu hỏi, "tất cả các quốc gia" trong trường hợp này có được coi là toàn bộ dân số không? Nếu không, điều đó có nghĩa là chúng là 'mẫu' từ một số 'siêu dân số' - giả sử có hàng triệu quốc gia trong 'vũ trụ song song', và 195 quốc gia trên trái đất được phân phối độc lập và giống hệt nhau giữa chúng và được lấy mẫu ngẫu nhiên. Đó không phải là một giả định quá xa vời sao?

— Akira Osawa