Một tính năng hay của sự khác biệt (DiD) thực sự là bạn không cần dữ liệu bảng điều khiển cho nó. Cho rằng việc điều trị xảy ra ở một mức độ tổng hợp nào đó (trong trường hợp thành phố của bạn), bạn chỉ cần lấy mẫu các cá nhân ngẫu nhiên từ các thành phố trước và sau khi điều trị. Điều này cho phép bạn ước tính
và nhận được hiệu quả nhân quả của điều trị như sự khác biệt về kết quả trước dự kiến đối với đã xử lý trừ đi sự khác biệt sau kết quả trước dự kiến cho sự kiểm soát.
yist=Ag+Bt+βDst+cXist+ϵist
Có một trường hợp trong đó mọi người sử dụng các hiệu ứng cố định riêng lẻ thay vì chỉ số điều trị và đây là khi chúng ta không có một mức độ tổng hợp được xác định rõ tại đó điều trị xảy ra. Trong trường hợp đó, bạn sẽ ước tính
trong đó là một chỉ báo cho giai đoạn hậu xử lý cho các cá nhân đã nhận được điều trị (ví dụ, một chương trình thị trường việc làm xảy ra ở mọi nơi). Để biết thêm thông tin về điều này, xem những ghi chú bài giảng của Steve Pischke.
yit=αi+Bt+βDit+cXit+ϵit
Dit
Trong cài đặt của bạn, việc thêm các hiệu ứng cố định riêng lẻ sẽ không thay đổi bất cứ điều gì liên quan đến ước tính điểm. Chỉ số điều trị sẽ chỉ được hấp thụ bởi các hiệu ứng cố định riêng lẻ. Tuy nhiên, các hiệu ứng cố định này có thể khắc phục một số phương sai còn lại và do đó có khả năng làm giảm sai số chuẩn của hệ số DiD của bạn.Ag
Dưới đây là một ví dụ mã cho thấy đây là trường hợp. Tôi sử dụng Stata nhưng bạn có thể sao chép này trong gói thống kê mà bạn chọn. Các "cá nhân" ở đây thực sự là các quốc gia nhưng họ vẫn được nhóm theo một số chỉ số điều trị.
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
Vì vậy, bạn thấy rằng hệ số DiD vẫn giữ nguyên khi bao gồm các hiệu ứng cố định riêng lẻ ( areg
là một trong những lệnh ước tính hiệu ứng cố định có sẵn trong Stata). Các lỗi tiêu chuẩn hơi chặt chẽ hơn và chỉ số điều trị ban đầu của chúng tôi đã được hấp thụ bởi các hiệu ứng cố định riêng lẻ và do đó giảm trong hồi quy.
Đáp lại bình luận
tôi đã đề cập đến ví dụ Pischke để hiển thị khi mọi người sử dụng các hiệu ứng cố định riêng lẻ thay vì chỉ báo nhóm điều trị. Cài đặt của bạn có cấu trúc nhóm được xác định rõ ràng, do đó cách bạn viết mô hình của mình là hoàn toàn tốt. Các lỗi tiêu chuẩn nên được phân cụm ở cấp thành phố, tức là mức độ tổng hợp tại đó xử lý xảy ra (Tôi đã không thực hiện điều này trong mã ví dụ nhưng trong cài đặt DiD, các lỗi tiêu chuẩn cần phải được sửa chữa như được trình bày bởi bài báo của Bertrand et al ).
Về máy động lực, họ không có nhiều vai trò ở đây. Chỉ số điều trị bằng 1 cho những người sống trong một thành phố được điều trị trong sau điều trị thời gian . Để tính hệ số DiD, chúng tôi thực sự chỉ cần tính bốn kỳ vọng có điều kiện, cụ thể là
Dstst
c=[E(yist|s=1,t=1)−E(yist|s=1,t=0)]−[E(yist|s=0,t=1)−E(yist|s=0,t=0)]
Vì vậy, nếu bạn có 4 giai đoạn sau điều trị cho một cá nhân sống trong một thành phố được điều trị trong hai lần đầu tiên và sau đó chuyển đến một thành phố kiểm soát trong hai giai đoạn còn lại, hai quan sát đầu tiên sẽ được sử dụng trong tính toán của và hai cái cuối cùng trong . Để làm rõ lý do tại sao nhận dạng đến từ sự khác biệt nhóm theo thời gian chứ không phải từ các động lực bạn có thể hình dung điều này bằng một biểu đồ đơn giản. Giả sử sự thay đổi trong kết quả chỉ thực sự là do điều trị và nó có tác dụng đương thời. Nếu chúng ta có một cá nhân sống trong một thành phố được điều trị sau khi điều trị bắt đầu nhưng sau đó chuyển đến một thành phố kiểm soát, kết quả của họ sẽ quay trở lại như trước khi họ được điều trị. Điều này được thể hiện trong biểu đồ cách điệu dưới đây.E ( y i s t | s = 0 , t = 1 )E(yist|s=1,t=1)E(yist|s=0,t=1)
Bạn vẫn có thể muốn nghĩ về máy động lực vì những lý do khác. Ví dụ, nếu việc điều trị có hiệu quả lâu dài (nghĩa là nó vẫn ảnh hưởng đến kết quả mặc dù cá nhân đã di chuyển)