Làm thế nào để giải thích hệ số giai đoạn hai trong hồi quy biến công cụ với công cụ nhị phân và biến nội sinh nhị phân?

(bài viết khá dài, xin lỗi. Nó bao gồm rất nhiều thông tin cơ bản, vì vậy hãy bỏ qua câu hỏi ở phía dưới.)

Giới thiệu: Tôi đang làm việc trên một dự án nơi chúng tôi đang cố gắng xác định ảnh hưởng của biến nội sinh nhị phân, , đối với kết quả liên tục, . Chúng tôi đã đưa ra một công cụ, , mà chúng tôi tin tưởng mạnh mẽ là được chỉ định ngẫu nhiên. $x_1$ $y$ $z_1$

Dữ liệu: Dữ liệu nằm trong cấu trúc bảng điều khiển với khoảng 34.000 quan sát trải rộng trên 1000 đơn vị và khoảng 56 khoảng thời gian. nhận giá trị 1 cho khoảng 700 (2%) các quan sát và làm như vậy với khoảng 3000 (9%). Các quan sát 111 (0,33%) đạt điểm 1 trên cả và và khả năng quan sát đạt điểm 1 trên gấp đôi nếu nó cũng đạt điểm 1 trên . $x_1$ $z_1$ $z_1$ $x_1$ $x_1$ $z_1$

Ước tính: Chúng tôi ước tính mô hình 2SLS sau thông qua thủ tục ivreg2 của Stata:

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

y = β_{0} + β_{1} x_{1}^{*} + Z β + u

$y = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u$

Trong đó là vectơ của các biến ngoại sinh khác, là giá trị dự đoán của từ giai đoạn đầu tiên, và và là các thuật ngữ lỗi. $Z$ $x_1^*$ $x_1$ $u$ $v$

Kết quả: Mọi thứ dường như đang hoạt động tốt; ước tính của rất có ý nghĩa trong giai đoạn đầu tiên và ước tính của rất có ý nghĩa trong giai đoạn thứ hai. Tất cả các dấu hiệu là như mong đợi, bao gồm cả những dấu hiệu cho các biến ngoại sinh khác. Tuy nhiên, vấn đề là ước tính của - hệ số quan tâm - là lớn không thể tin được (hoặc, ít nhất, theo cách chúng tôi đã diễn giải nó). $\pi_1$ $\beta_1$ $\beta_1$

$y$ dao động từ khoảng 2 đến khoảng 26 với trung bình và trung bình là 17, nhưng ước tính của dao động từ 30 đến 40 (tùy thuộc vào thông số kỹ thuật)! $\beta_1$

Yếu IV: Suy nghĩ đầu tiên của chúng tôi là điều này là do nhạc cụ quá yếu; nghĩa là, không tương quan nhiều với biến nội sinh, nhưng điều này dường như không thực sự đúng. Để kiểm tra điểm yếu của thiết bị, chúng tôi sử dụng gói phần mềm Finlay, Magnusson và Schaffer, vì nó cung cấp các bài kiểm tra mạnh mẽ để vi phạm giả định (có liên quan ở đây, vì chúng tôi có dữ liệu bảng điều khiển và phân cụm SE của chúng tôi tại cấp đơn vị). $i.i.d.$

Theo thử nghiệm AR của họ, giới hạn dưới của khoảng tin cậy 95% cho hệ số giai đoạn hai là từ 16 đến 29 (một lần nữa tùy thuộc vào đặc điểm kỹ thuật). Xác suất loại bỏ thực tế là 1 cho tất cả các giá trị gần bằng không.

Quan sát ảnh hưởng: Chúng tôi đã thử ước tính mô hình với từng đơn vị được loại bỏ riêng lẻ, với từng quan sát được loại bỏ riêng lẻ và với các cụm đơn vị được xóa. Không có thay đổi thực sự.

Giải pháp đề xuất: Ai đó đã đề xuất rằng chúng tôi không nên tóm tắt hiệu quả ước tính của công cụ trong số liệu ban đầu của nó (0-1), nhưng trong số liệu của phiên bản dự đoán của nó. nằm trong khoảng từ -0,01 đến 0,1 với giá trị trung bình và trung bình khoảng 0,02 và SD là khoảng 0,008. Nếu chúng ta tóm tắt hiệu ứng ước tính của , giả sử, tăng một SD trong , đó sẽ là (các thông số kỹ thuật khác cho kết quả gần như giống hệt nhau). Đây sẽ là cách hợp lý hơn (nhưng vẫn còn đáng kể). Có vẻ như là giải pháp hoàn hảo. Ngoại trừ tôi chưa từng thấy ai làm điều đó; tất cả mọi người chỉ xuất hiện để giải thích hệ số giai đoạn hai bằng cách sử dụng số liệu của biến nội sinh ban đầu. $x_1$ $x_1^*$ $x_1$ $x_1^*$ $0.018*30 = 0.54$

Câu hỏi: Trong mô hình IV, có đúng không khi tóm tắt hiệu ứng ước tính (LATE, thực sự) của sự gia tăng biến nội sinh bằng cách sử dụng số liệu của phiên bản dự đoán của nó? Trong trường hợp của chúng tôi, số liệu đó được dự đoán xác suất.

Lưu ý: Chúng tôi sử dụng 2SLS mặc dù chúng tôi có biến nội sinh nhị phân (biến giai đoạn đầu tiên thành LPM). Điều này diễn ra sau Angrist & Krueger (2001): Biến số nhạc cụ và Tìm kiếm nhận dạng: Từ cung và cầu đến thí nghiệm tự nhiên) Chúng tôi cũng đã thử quy trình ba giai đoạn được sử dụng trong Adams, Almeida, & Ferreira (2009): Hiểu được mối quan hệ giữa các CEO của người sáng lập và hiệu suất của công ty. Cách tiếp cận thứ hai, bao gồm một mô hình probit theo sau là 2SLS, mang lại các hệ số nhỏ hơn và hợp lý hơn, nhưng chúng vẫn rất lớn nếu được hiểu theo chỉ số 0-1 (khoảng 9-10). Chúng tôi nhận được kết quả tương tự với các tính toán thủ công như chúng tôi thực hiện với tùy chọn probit-2sls trong ivtreatreg của Cerulli's.

— Bê tông
nguồn

Bạn đã thử etregress/treatregchưa

— Dimitriy V. Masterov

Xin chào Dimitriy, cảm ơn bạn đã phản hồi! Tôi đã thử etregress bây giờ và nó cho kết quả tương tự. Tuy nhiên, đọc hướng dẫn sử dụng Stata và Wooldridge (2002): "Phân tích kinh tế lượng của dữ liệu mặt cắt và bảng điều khiển" Tôi có ấn tượng rằng loại mô hình hồi quy điều trị này giả định không biết gì về điều trị. Đó là, có điều kiện trên các biến quan sát, cho dù một đơn vị được điều trị hay không độc lập với kết quả (tiềm năng) của nó trong cả điều trị và kiểm soát.

— Bertel

(tt) Trong dữ liệu của chúng tôi, chúng tôi không thể thực sự duy trì giả định này; chúng tôi chỉ có một nguồn biến đổi ngẫu nhiên trong . Do đó, IV dường như là lựa chọn thích hợp. Nếu tôi có các giả định đúng, dù sao.

x

$x$

— Bertel

Sẽ rất hữu ích khi có một số biểu đồ, ví dụ như biểu đồ phân tán hoặc biểu đồ mật độ hạt nhân của các biến số thô và phần dư, v.v. Hãy nhớ rằng plim , thậm chí một mối tương quan nhỏ giữa công cụ và thuật ngữ lỗi có thể gây ra ước tính không nhất quán mạnh về !

{\hat{β}}_{1} = β_{1} + \frac{C o v (z_{1}, u)}{C o v (z_{1}, x_{1})}

$\hat{\beta}_1 = \beta_1 + \frac{Cov(z_1,u)}{Cov(z_1,x_1)}$

β_{1}

$\beta_1$

— Arne Jonas Warnke

Đây là một câu hỏi cũ, nhưng đối với bất kỳ ai tình cờ gặp phải nó trong tương lai, theo trực giác, ước tính 2SLS của là từ hồi quy "dạng rút gọn" $\beta_1$ $\alpha_1$

y = α_{0} + α_{1} z_{1} + Z α + u

$y = \alpha_0 + \alpha_1 z_1 + \mathbf{Z}\mathbf{\alpha} + u$

chia cho từ hồi quy "giai đoạn đầu" $\pi_1$

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

Vì vậy, nếu ước tính 2SLS của là "lớn một cách bất thường", hãy kiểm tra ước tính OLS của và . $\beta_1$ $\alpha_1$ $\pi_1$

Nếu ước tính là "hợp lý", thì vấn đề có thể là ước tính là "rất nhỏ". Chia cho một "rất nhỏ" có thể tạo ra một " lớn" đáng kinh ngạc . $\alpha_1$ $\pi_1$ $\hat{\alpha}_1$ $\hat{\pi}_1$ $\hat{\beta}_1$

— Peter
nguồn