Là thủ tục hiệu ứng cố định Mundlak có thể áp dụng cho hồi quy logistic với người giả không?


12

Tôi có một bộ dữ liệu với 8000 cụm và 4 triệu quan sát. Thật không may, phần mềm thống kê của tôi, Stata, chạy khá chậm khi sử dụng chức năng dữ liệu bảng điều khiển của nó để hồi quy logistic:, xtlogitngay cả với mẫu phụ 10%.

Tuy nhiên, khi sử dụng logitkết quả chức năng nonpanel xuất hiện sớm hơn nhiều. Do đó, tôi có thể được hưởng lợi từ việc sử dụng logittrên dữ liệu đã sửa đổi chiếm các hiệu ứng cố định.

Tôi tin rằng quy trình này được tạo ra "thủ tục hiệu ứng cố định Mundlak" (Mundlak, Y. 1978. Tập hợp dữ liệu chuỗi thời gian và mặt cắt ngang. Kinh tế lượng, 46 (1), 69-85.)

Tôi tìm thấy một lời giải thích trực quan về thủ tục này trong một bài báo của Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Về việc đưa ra tuyên bố nhân quả: Một đánh giá và khuyến nghị. Quý lãnh đạo, 21 (6). 1086-1120. Tôi trích dẫn:

Một cách để khắc phục vấn đề về các hiệu ứng bị bỏ qua và vẫn bao gồm các biến Cấp 2 là bao gồm các phương tiện cụm của tất cả các hiệp phương trình 1 trong mô hình ước tính (Mundlak, 1978). Các phương tiện cụm có thể được bao gồm dưới dạng hồi quy hoặc bị trừ (nghĩa là định tâm trung bình cụm) từ hiệp phương trình cấp 1. Các phương tiện cụm là bất biến trong cụm (và khác nhau giữa các cụm) và cho phép ước tính nhất quán các tham số Cấp 1 giống như đã bao gồm các hiệu ứng xed (xem Rabe-Hesketh & Skrondal, 2008).

Do đó, định tâm cụm có vẻ lý tưởng và thiết thực để giải quyết vấn đề tính toán của tôi. Tuy nhiên, những bài báo này dường như hướng đến hồi quy tuyến tính (OLS).

Có phải phương pháp định tâm trung bình cụm này cũng được áp dụng để "sao chép" hồi quy logistic nhị phân hiệu ứng cố định?

Một câu hỏi kỹ thuật hơn sẽ dẫn đến cùng một câu trả lời sẽ là: xtlogit depvar indepvars, fevới tập dữ liệu A bằng logit depvar indepvarsvới tập dữ liệu B khi tập dữ liệu B là phiên bản trung tâm cụm của tập dữ liệu A?

Một khó khăn thêm tôi tìm thấy trong cụm trung tâm có nghĩa là làm thế nào để đối phó với người giả. Bởi vì các hình nộm là 0 hoặc 1, chúng có giống nhau trong hồi quy hiệu ứng ngẫu nhiên và cố định không? Họ không nên là "trung tâm"?

Câu trả lời:


9

Sự khác biệt đầu tiên hoặc trong các biến đổi như giảm âm không có sẵn trong các mô hình như logit vì trong trường hợp mô hình phi tuyến, các thủ thuật như vậy không loại bỏ các hiệu ứng cố định không quan sát được. Ngay cả khi bạn có một tập dữ liệu nhỏ hơn, trong đó có thể bao gồm các hình nộm riêng lẻ N-1 để ước tính trực tiếp các hiệu ứng cố định, điều này sẽ dẫn đến ước tính sai lệch trừ khi kích thước thời gian của dữ liệu của bạn lớn. Do đó, việc loại bỏ các hiệu ứng cố định trong logit bảng điều khiển không theo sự khác biệt cũng như không làm giảm và chỉ có thể do hình thức chức năng logit. Nếu bạn quan tâm đến các chi tiết, bạn có thể xem các ghi chú này của Söderbom trên trang PDF 30 (giải thích tại sao việc hạ thấp / khác biệt đầu tiên trong logit / probit không giúp ích) và trang 42 (giới thiệu công cụ ước tính logit bảng điều khiển).

Một vấn đề khác là xtlogitcác mô hình logit bảng điều khiển nói chung không ước tính trực tiếp các hiệu ứng cố định cần thiết để tính toán các hiệu ứng cận biên. Không có những điều đó sẽ rất khó xử để giải thích các hệ số của bạn có thể gây thất vọng sau khi chạy mô hình hàng giờ.

Với một tập dữ liệu lớn như vậy và những khó khăn mang thai được đề cập trước đây của logit bảng FE, tôi sẽ gắn bó với mô hình xác suất tuyến tính. Tôi hy vọng câu trả lời này không làm bạn thất vọng nhưng có nhiều lý do chính đáng để đưa ra lời khuyên như vậy: LPM nhanh hơn nhiều, các hệ số có thể được giải thích ngay lập tức (điều này đặc biệt nếu bạn có hiệu ứng tương tác trong mô hình của mình vì cách giải thích của chúng hệ số trong các mô hình phi tuyến tính thay đổi!), các hiệu ứng cố định được kiểm soát dễ dàng và bạn có thể điều chỉnh các lỗi tiêu chuẩn cho tự động tương quan và cụm mà không có thời gian ước tính tăng vượt quá lý do. Tôi hi vọng cái này giúp được.


1
Đó không phải là một giải pháp nhưng nó là một câu trả lời. Cảm ơn :)
Tom

1
Điểm nhỏ: p20 của các slide đó làm cho trường hợp của bạn, nhưng mô hình hiệu chỉnh ngẫu nhiên hay còn gọi là "hiệu ứng ngẫu nhiên tương quan" được mô tả trên p47 và dường như không có sự cảnh báo nào như vậy.
liên hợp chiến

1

Tôi tin rằng logit có điều kiện ("clogit" trên Stata), đó là một công cụ ước tính bảng logit hiệu ứng cố định thay thế.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf


5
Chào mừng đến với trang web! Tôi nghĩ rằng đây không phải là một câu trả lời chấp nhận được, vì câu hỏi thực sự là: làm thế nào để tránh hồi quy logistic có điều kiện (tác động cố định) bằng cách hồi quy logistic cắt ngang được sửa đổi, với mục đích tăng tốc độ ước tính. Như tài liệu tham khảo của bạn chỉ ra (ở đầu trang 3), "chúng ta có thể sử dụng lệnh Statacủa clogitlệnh hoặc xtlogit, felệnh để thực hiện phân tích logit hiệu ứng cố định. Cả hai đều cho kết quả giống nhau. (Trên thực tế, tôi tin rằng xtlogit, fethực sự gọi clogit.)" OP đã biết xtlogit, fedựa trên đoạn áp chót.
Randel

0

Allison đã thảo luận vấn đề này trong Allison, (2009), "Các mô hình hồi quy hiệu ứng cố định", tr.32f.

Allison lập luận rằng không thể ước tính một mô hình vô điều kiện với khả năng tối đa. Điều này là do các mô hình trở nên sai lệch do "vấn đề thông số ngẫu nhiên". Thay vào đó, ông khuyến nghị sử dụng mô hình logit có điều kiện (Chamberlain, 1980). Điều này được thực hiện bằng cách điều chỉnh chức năng khả năng dựa trên số lượng sự kiện được quan sát cho mỗi cá nhân.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.