Thiết lập dữ liệu cho sự khác biệt


9

Thiết lập nào là chính xác cho sự khác biệt trong mô hình hồi quy khác biệt bằng cách sử dụng

Yist=α+γsT+λdt+δ(Tdt)+ϵist

Trong đó T là một hình nộm bằng 1 nếu quan sát từ nhóm điều trị và d là hình nộm bằng 1 trong khoảng thời gian sau khi điều trị xảy ra

1) Mẫu ngẫu nhiên từ mỗi nhóm và thời gian (tức là 4 mẫu ngẫu nhiên)

hoặc là

2) Dữ liệu bảng trong đó các đơn vị giống nhau được theo dõi trong cả hai khoảng thời gian?

Có vấn đề gì không và nếu không, OLS có thể được sử dụng với cả hai trường hợp không?


1
Tôi chưa thấy (1) xong - phân tích luôn có vẻ = (2). Không chắc chắn tại sao bạn sẽ làm (1). Nhưng tôi chưa thấy nhiều nghiên cứu về DID.
charles

1
Ví dụ về 1 được hiển thị trong Wooldridge Giới thiệu Kinh tế lượng phần 13.2
B_Miner

Câu trả lời:


19

Một giả định chính của sự khác biệt (DID) là cả hai nhóm đều có xu hướng chung về biến kết quả trước khi điều trị. Điều này rất quan trọng để đưa ra lập luận rằng sự thay đổi đối với nhóm được điều trị là do điều trị chứ không phải vì hai nhóm đã khác biệt với nhau để bắt đầu.

Nếu bạn lấy mẫu những người khác nhau trước và sau khi điều trị, điều này sẽ làm suy yếu lập luận trừ khi các mẫu của bạn từ các nhóm điều trị và kiểm soát thực sự ngẫu nhiên và lớn. Vì vậy, cũng có thể xảy ra việc ai đó sẽ hỏi bạn: "Làm thế nào bạn có thể chắc chắn rằng hiệu quả là do điều trị và không chỉ vì bạn đã lấy mẫu những người khác nhau?" - và điều đó sẽ khó trả lời. Câu hỏi này bạn có thể tránh bằng cách sử dụng dữ liệu bảng điều khiển vì ở đó bạn theo dõi cùng các đơn vị thống kê theo thời gian và nói chung đây là cách tiếp cận vững chắc hơn.

Để trả lời câu hỏi cuối cùng của bạn: có dữ liệu quan trọng nhưng bạn chắc chắn có thể sử dụng OLS để ước tính phương trình của bạn ở trên. Một điều quan trọng mà trong quá khứ thường bị bỏ qua là ước tính chính xác các lỗi tiêu chuẩn. Nếu bạn không sửa chúng, mối tương quan nối tiếp sẽ đánh giá thấp chúng bằng một lượng tốt và bạn sẽ tìm thấy những hiệu ứng đáng kể mặc dù có lẽ bạn không nên. Là một tài liệu tham khảo và đề xuất về cách giải quyết vấn đề này, xem Bertrand et al. (2004) "Chúng ta nên tin tưởng vào sự khác biệt về ước tính chênh lệch bao nhiêu?" .

Như một điều cuối cùng, nếu bạn có dữ liệu tổng hợp (ví dụ ở cấp trạng thái) hoặc nếu bạn có thể dễ dàng tổng hợp dữ liệu của mình và nếu bạn muốn sử dụng phương pháp kinh tế lượng gần đây hơn DID, bạn có thể muốn xem Abadie et al. (2010) "Phương pháp kiểm soát tổng hợp cho nghiên cứu trường hợp so sánh" . Phương pháp điều khiển tổng hợp ngày càng được sử dụng nhiều trong nghiên cứu hiện nay và tồn tại các thói quen được ghi chép tốt cho R và Stata. Có lẽ đây là một cái gì đó thú vị cho bạn là tốt.


Thật tuyệt vời Andy! Tôi có thể tóm tắt bằng cách nói rằng cả hai thiết lập dữ liệu đều được chấp nhận nhưng dữ liệu bảng đó dễ dàng đưa ra lập luận về các giả định không? Cả hai đều có thể phù hợp với OLS nhưng các lỗi tiêu chuẩn của (đặc biệt là thiết lập dữ liệu bảng điều khiển tôi đoán) có thể nghi ngờ do có thể có mối tương quan nối tiếp. Một thiết lập bảng điều khiển với Newey West SE sẽ là một giải pháp tốt?
B_Miner

6
Có, đối với loại dữ liệu đầu tiên, bạn cần nhiều giả định mạnh mẽ hơn. Đối với các lỗi tiêu chuẩn, hiệu chỉnh Newey West sẽ hoạt động. Trên thực tế, nó tương tự như một trong những phương pháp hiệu chỉnh được đề xuất bởi Bertrand et al. (họ sử dụng các lỗi tiêu chuẩn gộp). Một phương pháp gần đây sử dụng bootstrap hoạt động khá tốt (xem rbnz.govt.nz/research_and_publications/seminars_and_workairs/ Lỗi ). Hi vọng điêu nay co ich!
Andy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.