(bài viết khá dài, xin lỗi. Nó bao gồm rất nhiều thông tin cơ bản, vì vậy hãy bỏ qua câu hỏi ở phía dưới.)
Giới thiệu: Tôi đang làm việc trên một dự án nơi chúng tôi đang cố gắng xác định ảnh hưởng của biến nội sinh nhị phân, , đối với kết quả liên tục, . Chúng tôi đã đưa ra một công cụ, , mà chúng tôi tin tưởng mạnh mẽ là được chỉ định ngẫu nhiên.
Dữ liệu: Dữ liệu nằm trong cấu trúc bảng điều khiển với khoảng 34.000 quan sát trải rộng trên 1000 đơn vị và khoảng 56 khoảng thời gian. nhận giá trị 1 cho khoảng 700 (2%) các quan sát và làm như vậy với khoảng 3000 (9%). Các quan sát 111 (0,33%) đạt điểm 1 trên cả và và khả năng quan sát đạt điểm 1 trên gấp đôi nếu nó cũng đạt điểm 1 trên .
Ước tính: Chúng tôi ước tính mô hình 2SLS sau thông qua thủ tục ivreg2 của Stata:
Trong đó là vectơ của các biến ngoại sinh khác, là giá trị dự đoán của từ giai đoạn đầu tiên, và và là các thuật ngữ lỗi.
Kết quả: Mọi thứ dường như đang hoạt động tốt; ước tính của rất có ý nghĩa trong giai đoạn đầu tiên và ước tính của rất có ý nghĩa trong giai đoạn thứ hai. Tất cả các dấu hiệu là như mong đợi, bao gồm cả những dấu hiệu cho các biến ngoại sinh khác. Tuy nhiên, vấn đề là ước tính của - hệ số quan tâm - là lớn không thể tin được (hoặc, ít nhất, theo cách chúng tôi đã diễn giải nó).
dao động từ khoảng 2 đến khoảng 26 với trung bình và trung bình là 17, nhưng ước tính của dao động từ 30 đến 40 (tùy thuộc vào thông số kỹ thuật)!
Yếu IV: Suy nghĩ đầu tiên của chúng tôi là điều này là do nhạc cụ quá yếu; nghĩa là, không tương quan nhiều với biến nội sinh, nhưng điều này dường như không thực sự đúng. Để kiểm tra điểm yếu của thiết bị, chúng tôi sử dụng gói phần mềm Finlay, Magnusson và Schaffer, vì nó cung cấp các bài kiểm tra mạnh mẽ để vi phạm giả định (có liên quan ở đây, vì chúng tôi có dữ liệu bảng điều khiển và phân cụm SE của chúng tôi tại cấp đơn vị).
Theo thử nghiệm AR của họ, giới hạn dưới của khoảng tin cậy 95% cho hệ số giai đoạn hai là từ 16 đến 29 (một lần nữa tùy thuộc vào đặc điểm kỹ thuật). Xác suất loại bỏ thực tế là 1 cho tất cả các giá trị gần bằng không.
Quan sát ảnh hưởng: Chúng tôi đã thử ước tính mô hình với từng đơn vị được loại bỏ riêng lẻ, với từng quan sát được loại bỏ riêng lẻ và với các cụm đơn vị được xóa. Không có thay đổi thực sự.
Giải pháp đề xuất: Ai đó đã đề xuất rằng chúng tôi không nên tóm tắt hiệu quả ước tính của công cụ trong số liệu ban đầu của nó (0-1), nhưng trong số liệu của phiên bản dự đoán của nó. nằm trong khoảng từ -0,01 đến 0,1 với giá trị trung bình và trung bình khoảng 0,02 và SD là khoảng 0,008. Nếu chúng ta tóm tắt hiệu ứng ước tính của , giả sử, tăng một SD trong , đó sẽ là (các thông số kỹ thuật khác cho kết quả gần như giống hệt nhau). Đây sẽ là cách hợp lý hơn (nhưng vẫn còn đáng kể). Có vẻ như là giải pháp hoàn hảo. Ngoại trừ tôi chưa từng thấy ai làm điều đó; tất cả mọi người chỉ xuất hiện để giải thích hệ số giai đoạn hai bằng cách sử dụng số liệu của biến nội sinh ban đầu.
Câu hỏi: Trong mô hình IV, có đúng không khi tóm tắt hiệu ứng ước tính (LATE, thực sự) của sự gia tăng biến nội sinh bằng cách sử dụng số liệu của phiên bản dự đoán của nó? Trong trường hợp của chúng tôi, số liệu đó được dự đoán xác suất.
Lưu ý: Chúng tôi sử dụng 2SLS mặc dù chúng tôi có biến nội sinh nhị phân (biến giai đoạn đầu tiên thành LPM). Điều này diễn ra sau Angrist & Krueger (2001): Biến số nhạc cụ và Tìm kiếm nhận dạng: Từ cung và cầu đến thí nghiệm tự nhiên) Chúng tôi cũng đã thử quy trình ba giai đoạn được sử dụng trong Adams, Almeida, & Ferreira (2009): Hiểu được mối quan hệ giữa các CEO của người sáng lập và hiệu suất của công ty. Cách tiếp cận thứ hai, bao gồm một mô hình probit theo sau là 2SLS, mang lại các hệ số nhỏ hơn và hợp lý hơn, nhưng chúng vẫn rất lớn nếu được hiểu theo chỉ số 0-1 (khoảng 9-10). Chúng tôi nhận được kết quả tương tự với các tính toán thủ công như chúng tôi thực hiện với tùy chọn probit-2sls trong ivtreatreg của Cerulli's.
etregress/treatreg
chưa