Khi nào nên sử dụng hiệu ứng cố định so với sử dụng cụm SE?


17

Giả sử bạn có một mặt cắt ngang duy nhất của dữ liệu trong đó các cá nhân nằm trong các nhóm (ví dụ: học sinh trong trường) và bạn muốn ước tính một mô hình của biểu mẫu Y_i = a + B*X_itrong đó Xmột vectơ của các đặc điểm cấp độ cá nhân và ahằng số.

Trong trường hợp này, giả sử sự không đồng nhất giữa các nhóm không quan sát được sẽ làm sai lệch ước tính điểm của bạn Bvà SE của chúng vì nó tương quan với biến quan tâm độc lập của bạn.

Một lựa chọn là phân cụm SE của bạn theo nhóm (trường học). Một cách khác là bao gồm các FE nhóm. Một cách khác là sử dụng cả hai. Những gì nên xem xét khi lựa chọn giữa các tùy chọn này? Điều này đặc biệt không rõ ràng tại sao người ta có thể phân cụm SE theo nhóm VÀ sử dụng nhóm FE. Trong trường hợp cụ thể của tôi, tôi có 35 nhóm và 5.000 cá nhân được lồng trong mỗi nhóm. Tôi đã theo dõi cuộc thảo luận trong pdf này , nhưng không rõ tại sao và khi nào người ta có thể sử dụng cả SE và cụm hiệu ứng cố định.

(Vui lòng thảo luận về ưu và nhược điểm của SEs so với FE thay vì đề xuất tôi chỉ phù hợp với mô hình đa cấp.)

Câu trả lời:


21

Cả hai cách tiếp cận, sử dụng hiệu ứng cố định nhóm và / hoặc lỗi tiêu chuẩn được điều chỉnh theo cụm đều tính đến các vấn đề khác nhau liên quan đến dữ liệu cụm (hoặc bảng điều khiển) và tôi sẽ xem chúng rõ ràng như các cách tiếp cận khác biệt. Thường thì bạn muốn sử dụng cả hai:

Trước hết, tài khoản lỗi tiêu chuẩn được điều chỉnh theo cụm cho tương quan trong cụm hoặc tính không đồng nhất mà công cụ ước tính hiệu ứng cố định không tính đến trừ khi bạn sẵn sàng đưa ra các giả định tiếp theo, hãy xem các bài giảng của Imbens và Wooldridge để thảo luận ngắn gọn và bảng dài và các vấn đề khác nhau liên quan đến vấn đề này . Ngoài ra còn có một bài viết mới về chủ đề này của Cameron và Miller: Hướng dẫn của một học viên về suy luận cụm mạnh mẽ có thể thú vị cho bạn. Nếu bạn không muốn mô hình hóa ma trận phương sai hiệp phương sai và bạn nghi ngờ rằng có mối tương quan trong cụm, tôi khuyên bạn nên sử dụng lỗi tiêu chuẩn mạnh của cụm vì độ lệch trong SE của bạn có thể nghiêm trọng (nhiều vấn đề hơn so với độ không đồng nhất, xemAngrist & Pischke Chương III.8 cho một cuộc thảo luận về chủ đề này. Nhưng bạn cần đủ cụm (Angrist và Pischke nói 40-50 là vai trò của ngón tay cái). Lỗi tiêu chuẩn được điều chỉnh theo cụm có tính đến lỗi tiêu chuẩn nhưng không thay đổi ước tính điểm của bạn (lỗi tiêu chuẩn thường sẽ tăng lên)!

Ước tính hiệu ứng cố định tính đến sự không đồng nhất thời gian không quan sát được (như bạn đã đề cập). Điều này có thể tốt hoặc xấu: Về mặt, bạn cần ít giả định hơn để có được ước tính phù hợp. Mặt khác, bạn vứt bỏ rất nhiều phương sai có thể hữu ích. Một số người như Andrew Gelman thích mô hình phân cấp cho các hiệu ứng cố định nhưng ở đây ý kiến ​​khác nhau. Ước tính hiệu ứng cố định sẽ thay đổi cả hai, ước tính điểm và khoảng (cũng ở đây sai số chuẩn thường sẽ cao hơn).

Vì vậy, để tóm tắt: Lỗi tiêu chuẩn mạnh mẽ theo cụm là một cách dễ dàng để giải quyết các vấn đề có thể liên quan đến dữ liệu cụm nếu bạn không muốn bận tâm đến việc mô hình hóa mối tương quan giữa các cụm và trong cụm (và có đủ các cụm có sẵn). Ước tính hiệu ứng cố định sẽ chỉ sử dụng một số biến thể nhất định, do đó, tùy thuộc vào mô hình của bạn xem bạn có muốn thực hiện ước tính dựa trên ít biến thể hơn hay không. Nhưng không có giả định thêm ước tính hiệu ứng cố định sẽ không quan tâm đến các vấn đề liên quan đến tương quan trong cụm cho ma trận phương sai. Cả lỗi tiêu chuẩn cụm mạnh cũng sẽ không tính đến các vấn đề liên quan đến việc sử dụng ước tính hiệu ứng cố định.


2
Đáp ứng tốt. Câu hỏi quan trọng còn lại là tại sao người ta lại muốn CẢ. Imbens và Wooldridge bao gồm điều này ở một mức độ nào đó.
Câu hỏi

12

Các hiệu ứng cố định là để loại bỏ tính không đồng nhất không quan sát GIỮA các nhóm khác nhau trong dữ liệu của bạn.

Tôi không đồng ý với hàm ý trong phản hồi được chấp nhận rằng quyết định sử dụng mô hình FE sẽ phụ thuộc vào việc bạn có muốn sử dụng "ít biến thể hơn hay không". Nếu biến phụ thuộc của bạn bị ảnh hưởng bởi các biến không quan sát được thay đổi một cách có hệ thống giữa các nhóm trong bảng điều khiển của bạn, thì hệ số trên bất kỳ biến nào tương quan với biến thể này sẽ bị sai lệch. Trừ khi các biến X của bạn được gán ngẫu nhiên (và chúng sẽ không bao giờ có dữ liệu quan sát), thông thường khá dễ dàng để làm cho đối số cho các biến bị bỏ qua sai lệch. Bạn có thểcó thể kiểm soát một số biến bị bỏ qua với danh sách các biến kiểm soát tốt, nhưng nếu xác định mạnh là mục tiêu số 1 của bạn, ngay cả một danh sách kiểm soát rộng rãi cũng có thể khiến người đọc quan trọng nghi ngờ về kết quả của bạn. Trong những trường hợp này, thường là một ý tưởng tốt để sử dụng mô hình hiệu ứng cố định.

Lỗi tiêu chuẩn gộp là để tính toán cho các tình huống trong đó các quan sát trong mỗi nhóm không bị iid (phân phối độc lập và giống hệt nhau).

Một ví dụ kinh điển là nếu bạn có nhiều quan sát cho một nhóm các công ty theo thời gian. Bạn có thể tính đến các hiệu ứng cố định ở cấp độ công ty, nhưng vẫn có thể có một số biến thể không giải thích được trong biến phụ thuộc của bạn có tương quan theo thời gian. Nói chung, khi làm việc với dữ liệu chuỗi thời gian, thường sẽ an toàn khi giả định mối tương quan nối tiếp theo thời gian trong các điều khoản lỗi trong các nhóm của bạn. Những tình huống này là trường hợp sử dụng rõ ràng nhất cho các SE phân cụm.

Một số ví dụ minh họa:

Nếu bạn có dữ liệu thử nghiệm trong đó bạn chỉ định ngẫu nhiên các phương pháp điều trị, nhưng thực hiện các quan sát lặp đi lặp lại cho từng cá nhân / nhóm theo thời gian, bạn sẽ có lý khi bỏ qua các hiệu ứng cố định, nhưng muốn phân cụm SE của bạn.

Ngoài ra, nếu bạn có nhiều quan sát cho mỗi nhóm đối với dữ liệu không thử nghiệm, nhưng mỗi quan sát trong nhóm có thể được coi là một kết quả rút ra từ nhóm lớn hơn của họ (ví dụ: bạn có các quan sát từ nhiều trường, nhưng mỗi nhóm là một tập hợp con được rút ngẫu nhiên của các sinh viên từ trường của họ), bạn sẽ muốn bao gồm các hiệu ứng cố định nhưng sẽ không cần các SE phân cụm.


2

Những câu trả lời này là tốt, nhưng câu trả lời gần đây nhất và tốt nhất được cung cấp bởi Abadie et al. (2019) "Khi nào bạn nên điều chỉnh lỗi tiêu chuẩn cho phân cụm?" Với các hiệu ứng cố định, một lý do chính để phân cụm là bạn có sự không đồng nhất trong các hiệu ứng điều trị trên các cụm. Có những lý do khác, ví dụ nếu các cụm (ví dụ: các công ty, quốc gia) là một tập hợp con của các cụm trong dân số (về điều mà bạn đang suy luận). Phân cụm là một vấn đề thiết kế là thông điệp chính của bài báo. Đừng làm điều đó một cách mù quáng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.