Sự khác biệt là gì?

43

Sự khác biệt về sự khác biệt từ lâu đã trở nên phổ biến như một công cụ phi thực nghiệm, đặc biệt là trong kinh tế. Ai đó có thể vui lòng cung cấp một câu trả lời rõ ràng và phi kỹ thuật cho các câu hỏi sau đây về sự khác biệt.

Công cụ ước tính chênh lệch là gì?
Tại sao một công cụ ước tính khác biệt được sử dụng?
Chúng ta thực sự có thể tin tưởng vào sự khác biệt về ước tính chênh lệch không?

regression econometrics difference-in-difference

— Graham Cookson
nguồn

Có ai biết làm thế nào để ước tính một sự khác biệt trong hồi quy khác biệt trong gretl? Tôi có phải làm việc với OLS hoặc dữ liệu bảng không?

3

@Pyca Nghe có vẻ như việc sử dụng bình luận không phù hợp ở đó. Bạn nên đăng một câu hỏi mới, với tham chiếu đến câu hỏi này.

— chl

66

Sự khác biệt về công cụ ước tính sự khác biệt Sự khác biệt về sự khác biệt (DiD) là một công cụ để ước tính hiệu quả điều trị so sánh sự khác biệt trước và sau điều trị trong kết quả điều trị và nhóm đối chứng. Nói chung, chúng tôi quan tâm đến việc ước tính hiệu quả của việc điều trị (ví dụ như tình trạng liên minh, thuốc men, v.v.) đối với kết quả (ví dụ: tiền lương, sức khỏe, v.v.) như trong trong đó là các hiệu ứng cố định riêng lẻ (đặc điểm của các cá nhân không thay đổi theo thời gian), là các hiệu ứng cố định theo thời gian, là các đồng biến thời gian khác nhau như tuổi của cá nhân và $D_i$ $Y_i$

Y_{i t} = α_{i} + λ_{t} + ρ D_{i t} + X_{i t}^{'} β + ϵ_{i t}

$Y_{it} = \alpha_i + \lambda_t + \rho D_{it} + X'_{it}\beta + \epsilon_{it}$

α_{i}

$\alpha_i$

λ_{t}

$\lambda_t$

X_{i t}

$X_{it}$

ϵ_{i t}

$\epsilon_{it}$ là một thuật ngữ lỗi. Cá nhân và thời gian được lập chỉ mục bởi và , tương ứng. Nếu có mối tương quan giữa các hiệu ứng cố định và thì việc ước tính hồi quy này thông qua OLS sẽ bị sai lệch do các hiệu ứng cố định không được kiểm soát. Đây là sai lệch biến điển hình bỏ qua .

i

$i$

t

$t$

D_{i t}

$D_{it}$

Để thấy hiệu quả của một điều trị, chúng tôi muốn biết sự khác biệt giữa một người trong một thế giới mà cô ấy được điều trị và một người mà cô ấy không điều trị. Tất nhiên, chỉ có một trong số này là có thể quan sát được trong thực tế. Do đó, chúng tôi tìm kiếm những người có cùng xu hướng tiền điều trị trong kết quả. Giả sử chúng ta có hai giai đoạn và hai nhóm . Sau đó, theo giả định rằng các xu hướng trong các nhóm điều trị và kiểm soát sẽ tiếp tục giống như trước đây khi không điều trị, chúng tôi có thể ước tính hiệu quả điều trị là $t = 1, 2$ $s = A,B$

ρ = (E [Y_{i s t} | s = A, t = 2] - E [Y_{i s t} | s = A, t = 1]) - (E [Y_{i s t} | s = B, t = 2] - E [Y_{i s t} | s = B, t = 1])

$\rho = (E[Y_{ist}|s=A,t=2] - E[Y_{ist}|s=A,t=1]) - (E[Y_{ist}|s=B,t=2] - E[Y_{ist}|s=B,t=1])$

Về mặt đồ họa, nó sẽ trông giống như thế này: nhập mô tả hình ảnh ở đây

Bạn có thể chỉ cần tính toán các phương tiện này bằng tay, tức là có được kết quả trung bình của nhóm trong cả hai giai đoạn và lấy sự khác biệt của chúng. Sau đó có được kết quả trung bình của nhóm trong cả hai giai đoạn và lấy sự khác biệt của chúng. Sau đó, lấy sự khác biệt trong sự khác biệt và đó là hiệu quả điều trị. Tuy nhiên, sẽ thuận tiện hơn khi thực hiện việc này trong khung hồi quy vì điều này cho phép bạn $A$ $B$

để kiểm soát các đồng biến
để có được các lỗi tiêu chuẩn cho hiệu quả điều trị để xem nó có đáng kể hay không

Để làm điều này, bạn có thể làm theo một trong hai chiến lược tương đương. Tạo một nhóm điều khiển giả bằng 1 nếu một người thuộc nhóm và 0, tạo ra một hình nộm thời gian bằng 1 nếu và 0 nếu không, và sau đó hồi quy $\text{treat}_i$ $A$ $\text{time}_t$ $t=2$

Y_{i t} = β_{1} + β_{2} ({treat}_{i}) + β_{3} ({time}_{t}) + ρ ({treat}_{i} \cdot {time}_{t}) + ϵ_{i t}

$Y_{it} = \beta_1 + \beta_2 (\text{treat}_i) + \beta_3 (\text{time}_t) + \rho (\text{treat}_i \cdot \text{time}_t) + \epsilon_{it}$

Hoặc bạn chỉ đơn giản tạo ra một hình nộm bằng với một người trong nhóm điều trị VÀ khoảng thời gian là khoảng thời gian sau điều trị và bằng không. Sau đó, bạn sẽ hồi quy $T_{it}$

Y_{i t} = β_{1} γ_{s} + β_{2} λ_{t} + ρ T_{i t} + ϵ_{i t}

$Y_{it} = \beta_1 \gamma_s + \beta_2 \lambda_t + \rho T_{it} + \epsilon_{it}$

trong đó lại là một hình nộm cho nhóm điều khiển và là những kẻ giả thời gian. Hai hồi quy cho bạn kết quả giống nhau trong hai giai đoạn và hai nhóm. Phương trình thứ hai là tổng quát hơn mặc dù nó dễ dàng mở rộng ra nhiều nhóm và khoảng thời gian. Trong cả hai trường hợp, đây là cách bạn có thể ước tính sự khác biệt về tham số khác biệt theo cách mà bạn có thể bao gồm các biến điều khiển (Tôi đã bỏ qua các phương trình trên để không làm lộn xộn chúng nhưng bạn chỉ có thể đưa chúng vào) và nhận được các lỗi tiêu chuẩn cho suy luận. $\gamma_s$ $\lambda_t$

Tại sao sự khác biệt trong ước tính khác biệt hữu ích?
Như đã nêu trước đây, DiD là một phương pháp để ước tính hiệu quả điều trị với dữ liệu phi thực nghiệm. Đó là tính năng hữu ích nhất. DiD cũng là một phiên bản của ước tính hiệu ứng cố định. Trong khi mô hình hiệu ứng cố định giả định , DiD đưa ra một giả định tương tự nhưng ở cấp độ nhóm, . Vì vậy, giá trị mong đợi của kết quả ở đây là tổng của một nhóm và hiệu ứng thời gian. Vậy sự khác biệt là gì? Đối với DID bạn không nhất thiết cần dữ liệu bảng miễn là mặt cắt ngang lặp đi lặp lại của bạn được rút ra từ các đơn vị tổng hợp cùng . Điều này làm cho DiD có thể áp dụng cho một mảng dữ liệu rộng hơn so với các mô hình hiệu ứng cố định tiêu chuẩn yêu cầu dữ liệu bảng. $E(Y_{0it}|i,t) = \alpha_i + \lambda_t$ $E(Y_{0it}|s,t) = \gamma_s + \lambda_t$ $s$

Chúng ta có thể tin tưởng sự khác biệt trong sự khác biệt?
Giả định quan trọng nhất trong DiD là giả định xu hướng song song (xem hình trên). Không bao giờ tin tưởng vào một nghiên cứu không thể hiện bằng đồ họa những xu hướng này! Giấy tờ trong những năm 1990 có thể đã nhận được điều này nhưng ngày nay sự hiểu biết của chúng ta về DiD tốt hơn nhiều. Nếu không có biểu đồ thuyết phục cho thấy các xu hướng song song trong kết quả tiền điều trị cho các nhóm điều trị và kiểm soát, hãy thận trọng. Nếu giả định xu hướng song song giữ và chúng ta có thể loại trừ đáng tin cậy bất kỳ thay đổi biến thể thời gian nào khác có thể gây nhiễu cho điều trị, thì DiD là một phương pháp đáng tin cậy.

Một lời cảnh báo khác nên được áp dụng khi điều trị các lỗi tiêu chuẩn. Với nhiều năm dữ liệu, bạn cần điều chỉnh các lỗi tiêu chuẩn cho tự động tương quan. Trong quá khứ, điều này đã bị bỏ qua nhưng kể từ khi Bertrand et al. (2004) "Chúng ta nên tin tưởng vào sự khác biệt về ước tính chênh lệch bao nhiêu?" chúng tôi biết rằng đây là một vấn đề. Trong bài báo họ cung cấp một số biện pháp khắc phục sự cố tương quan. Đơn giản nhất là phân cụm trên mã định danh bảng điều khiển riêng lẻ cho phép tương quan tùy ý của phần dư giữa các chuỗi thời gian riêng lẻ. Điều này sửa cho cả tự tương quan và không đồng nhất.

Để tham khảo thêm, xem các ghi chú bài giảng của Waldinger và Pischke .

— Andy
nguồn

6

Wikipedia có một mục khá về chủ đề này , nhưng tại sao không sử dụng hồi quy tuyến tính cho phép tương tác giữa các biến quan tâm độc lập của bạn? Điều này có vẻ dễ hiểu hơn đối với tôi. Sau đó, bạn có thể đọc phân tích về các sườn đơn giản (trong sách Cohen et al miễn phí trên Google Sách) nếu các biến quan tâm của bạn là định lượng.

— Stephen Turner
nguồn

0

Đây là một kỹ thuật được sử dụng rộng rãi trong kinh tế lượng để kiểm tra ảnh hưởng của bất kỳ sự kiện ngoại sinh nào trong một chuỗi thời gian. Bạn chọn hai nhóm dữ liệu riêng biệt liên quan đến trước và sau khi sự kiện được nghiên cứu. Một tài liệu tham khảo tốt để tìm hiểu thêm là cuốn sách Giới thiệu về Kinh tế lượng của Wooldridge.

— Carlos Dutra
nguồn

2

Là một câu trả lời ngắn gọn không mang tính kỹ thuật, đây là câu trả lời bổ sung cho Andy nhưng tôi không nghĩ nó bao gồm "Chúng ta thực sự có thể tin tưởng vào sự khác biệt về ước tính chênh lệch không?"

— Cá bạc

0

Cẩn thận:

Hai điểm bổ sung đáng chú ý. Đầu tiên, 80 trong số 92 bài báo DD gốc có vấn đề tiềm ẩn với các thuật ngữ lỗi được nhóm lại vì đơn vị quan sát chi tiết hơn mức độ biến đổi (một điểm được thảo luận bởi Donald và Lang [2001]). Chỉ có 36 trong số các bài viết này giải quyết vấn đề này, bằng cách phân cụm các lỗi tiêu chuẩn hoặc bằng cách tổng hợp dữ liệu. Thứ hai, một số kỹ thuật được sử dụng (ít nhiều không chính thức) để xử lý tính nội sinh có thể có của biến can thiệp. Ví dụ, ba bài báo bao gồm một biến phụ thuộc bị trễ trong phương trình (1), bảy bao gồm một xu hướng thời gian cụ thể cho các trạng thái được xử lý, mười lăm biểu đồ một số biểu đồ để kiểm tra động lực của hiệu ứng điều trị, ba kiểm tra xem có "hiệu ứng" trước không Luật pháp, hai thử nghiệm xem hiệu quả có liên tục không, và mười một chính thức cố gắng thực hiện ba lần khác biệt (DDD) bằng cách tìm một nhóm kiểm soát khác. Trong Bertrand, Duflo và Mullainathan [2002] chúng tôi cho thấy hầu hết các kỹ thuật này không làm giảm bớt các vấn đề tương quan nối tiếp.

(Bertrand, Duflo và Mullainathan 2004, 253)

— Mới ở đây
nguồn