Tại sao sử dụng DV bị trễ như một biến công cụ?

12

Tôi đã thừa hưởng một số mã phân tích dữ liệu mà, không phải là một nhà kinh tế lượng, tôi đang đấu tranh để hiểu. Một mô hình chạy hồi quy biến công cụ bằng lệnh Stata sau

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Bộ dữ liệu này là một bảng điều khiển với nhiều quan sát liên tiếp cho tập hợp các biến này.

Tại sao mã này sử dụng các giá trị độ trễ của DV làm công cụ? Theo tôi hiểu (từ việc đào sâu vào sách giáo khoa cũ), ước tính IV được sử dụng khi có vấn đề do một biến hồi quy có tương quan với thuật ngữ lỗi. Tuy nhiên, không có gì được đề cập về việc chọn độ trễ của DV làm công cụ.

Một nhận xét về dòng mã này đề cập đến "quan hệ nhân quả". Bất kỳ trợ giúp trong việc tìm ra mục tiêu ở đây sẽ được hoan nghênh nhất.

regression stata instrumental-variables

— ấu trùng
nguồn

Từ câu hỏi của bạn, bạn có thể đang đọc mã hơi sai. Cú pháp đang sử dụng các khác biệt làm "công cụ" để ước tính độ trễ của biến phụ thuộc.

— Andy W

lara: bạn có thể chỉnh sửa câu hỏi của bạn để giải thích một cách đơn giản ý nghĩa của mã stata bị cắt không?

— dùng603

7

Chỉnh sửa: Với sự làm rõ về mã stata được cung cấp bởi Andy W bên dưới, tôi đã thay đổi câu trả lời của mình để giải quyết tốt hơn câu hỏi. Bạn sẽ tìm thấy phiên bản cũ của câu trả lời của tôi bên dưới câu trả lời hiện tại.

Có vẻ như mã của bạn là một nỗ lực vụng về trong việc tự làm công cụ ước tính Arellano-Bond (giả sử ước tính ivreg với 2SOLS). Bạn có thể tìm thêm chi tiết về cách sử dụng và logic của công cụ ước tính A / B trong bài viết đánh giá hay này cũng như trong phần giới thiệu rộng hơn này .

Tóm lại và trong 3 dòng: mặc dù công cụ ước tính A / B thực sự là công cụ ước tính IV (tổng quát), nó không được sử dụng để giải quyết bất kỳ vấn đề nào về quan hệ nhân quả. Các IV trong bối cảnh này được sử dụng để cung cấp ước tính hiệu quả của hệ số AR trong bối cảnh dữ liệu bảng.

Tôi sẽ khuyên bạn không nên phát minh lại bánh xe ở đây, và thay vào đó sử dụng hộp công cụ đã sẵn sàng để thực hiện các ước tính như vậy. Đối với stata, bạn có thể sử dụng gói XTABOND2 (hoặc XTABOND nếu bạn đang chạy gói STAT11).

phản hồi cũ:

$x_t$ $y_t$ $x_t$ $y_t$ $x_t$ $y_t$ $y_t$ $x_t$

$y_t$ $x_{t-1}$ $x_t$

$y_t\leftarrow x_{t-1}$ $x_{t-1} \leftarrow y_{t}$ $x$ $y$

$y_t$ $x_{t-1}$ $I(0)$

— người dùng603
nguồn

+1 Đồng ý với cách giải thích này về nó trông giống như DIY Arellano-Bond. Lưu ý: Tôi đã thấy Arellano-Bond chỉ đáng tin cậy khi số lượng đơn vị cắt ngang rất lớn --- như trong, hàng trăm. Arellano gợi ý càng nhiều trong các bài báo và sách giáo khoa của mình bằng cách chỉ ra rằng tính nhất quán nằm ở số lượng đơn vị mặt cắt và tốc độ hội tụ không quá nhanh.

— Cyrus S

5

Tôi không biết Stata, vì vậy tôi không thể nhận xét về mô hình cụ thể. Nhưng việc sử dụng các biến bị trễ là một cách tiếp cận khá phổ biến khi xử lý sai lệch đồng thời nói chung và tạo ra các biến công cụ nói riêng.

Giả sử bạn có phản hồi giữa hai biến trong mô hình của mình: biến độc lập (chẳng hạn như giá) và biến phụ thuộc (chẳng hạn như số lượng). Sau đó cả hai đều nội sinh (nguyên nhân của chúng phát sinh từ bên trong mô hình) và nhiễu loạn đến thuật ngữ lỗi sẽ ảnh hưởng đến cả hai biến.

Để giải quyết điều này, bạn muốn làm cho biến độc lập (giá) trở nên ngoại lệ để các nhiễu loạn trong lỗi chỉ ảnh hưởng đến biến phụ thuộc (số lượng). Điều này được thực hiện bằng cách tạo các biến ngoại sinh mới bằng cách hồi quy các biến ngoại sinh khác trong mô hình của bạn về giá. Các biến ngoại sinh mới này là các biến công cụ (IV) của bạn. Các IV có nguồn gốc từ các thuật ngữ ngoại sinh và do đó không tương quan với lỗi.

Nhưng để làm điều này, bạn cần tìm ra các biến nào là ngoại lệ để chúng có thể được sử dụng để lấy IV. Chúng ta có thể lưu ý rằng các biến bị trễ "xảy ra" trong quá khứ và do đó không thể tương quan với lỗi trong hiện tại. Do đó, các biến bị trễ là ngoại lệ và trở thành ứng cử viên thuận tiện cho việc tạo IV. (Tuy nhiên, lưu ý rằng đối số trước không thành công khi các lỗi được tự động sửa lỗi.)

Một giới thiệu tốt và tham khảo cho điều này là Kinh tế lượng giới thiệu: một cách tiếp cận hiện đại của Wooldridge.

— ars
nguồn

5

Đối với những người không quen thuộc với đoạn mã sau từ Stata, OP đã cung cấp

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

phương trình này có thể được đọc là

$Y_t = \alpha + \beta_1 (Var1) + \beta_2 (Var1) + \beta_3 (Var1) + \beta_4 (\tilde{Y}_{t-1})$

$\tilde{Y}_{t-1}$

$\tilde{Y}_{t-1} = \alpha + Z_1(\Delta^{2}Y_t) + Z_2(\Delta^{3}Y_t) + Z_3(\Delta^{4}Y_t)$

(tức là giai đoạn đầu tiên của phương trình IV nằm trong dấu ngoặc đơn trong mã Stata)

Đồng bằng đại diện cho sự khác biệt thứ hai, thứ ba và thứ tư, và chúng được sử dụng như các công cụ loại trừ để ước tính độ trễ của biến phụ thuộc.

L. $t-1$ D.D2.

Về cơ bản, tôi không thể nghĩ ra bất kỳ lý do hợp lý nào tại sao ai đó sẽ làm điều này. Nhưng Kwak đã chỉ ra (tham khảo bài viết này ) rằng phương pháp Arellano-Bond sử dụng sự khác biệt làm công cụ để ước tính thành phần hồi quy tự động của mô hình. . )

Theo đề xuất về việc đọc thêm tài liệu như giới thiệu về các biến công cụ,

Một poster khác trong phản hồi này (Charlie) liên kết với một số slide mà anh ấy đã chuẩn bị mà tôi thích và sẽ đề nghị là đáng để xem xét giới thiệu về các biến công cụ. Tôi cũng sẽ đề nghị powerpoint này một giáo sư của tôi chuẩn bị cho một hội thảo như là một giới thiệu là tốt. Như một gợi ý cuối cùng cho bất kỳ ai được khuyến khích tìm hiểu thêm về các biến công cụ, bạn nên tìm kiếm công việc của Joshua Angrist.

Đây là câu trả lời ban đầu của tôi

L. $t-1$ D.D2.

Trong tất cả các ứng dụng tôi đã thấy, mọi người sử dụng độ trễ của các biến độc lập làm công cụ để ước tính độ trễ của biến phụ thuộc (vì lý do ars nói về). Nhưng điều này dựa trên giả định rằng các biến độc lập bị trễ là ngoại sinh với thuật ngữ lỗi trong khoảng thời gian chúng được áp dụng.

Tôi không biết bất kỳ lý do nào trong đó sự khác biệt của biến phụ thuộc sẽ được coi là ngoại sinh. Theo như tôi biết, nó không được chấp nhận để chỉ khác biệt một mặt của phương trình và sẽ tạo ra kết quả khá phi logic ( đây là một bài viết phê phán ai đó về tình huống ngược lại trong đó họ đưa vào một mức biến như một yếu tố dự báo một chuỗi khác biệt.) Nếu bạn sắp xếp lại các thuật ngữ trong phương trình IV, nó thực sự trông giống như một bài kiểm tra Dickey Fuller tăng cường.

Trong khi câu trả lời đơn giản nhất là hỏi người viết mã, bất kỳ ai cũng có thể đưa ra một ví dụ trong đó quy trình này có thể được chấp nhận hoặc bất kỳ tình huống nào trong đó quy trình này sẽ trả về một số kết quả có ý nghĩa? Như tôi không thể nghĩ ra bất kỳ lý do logic nào tại sao sự khác biệt sẽ có ảnh hưởng đến các cấp độ ngoại trừ trong trường hợp bộ truyện không cố định.

— Andy W
nguồn

Chào Andy. Tôi không biết mã stata. Đó là lý do tại sao tôi không đề cập đến đoạn mã được trích trong câu trả lời của tôi, mà phải được hiểu là một câu trả lời cho phần câu hỏi được xây dựng bằng tiếng Anh.

— user603

@kwak - Tôi không chỉ trích bài viết của bạn, tôi đồng ý với mọi điều bạn nói. Tôi chỉ đơn giản là tự hỏi liệu có một số logic về lý do tại sao một người nào đó sẽ sử dụng sự khác biệt như các công cụ mà tôi không biết. Tôi không thể tưởng tượng bất kỳ tình huống trong đó sự khác biệt sẽ đáp ứng bất kỳ yêu cầu nào cho một thủ tục như vậy.

— Andy W

Xin chào Andy:> tôi không nhận xét bạn là một nhà phê bình. Bài đăng của bạn đang nêu bật một khía cạnh quan trọng của câu hỏi mà cả Rob và tôi (không thừa nhận) đều hiểu. Nếu bất cứ điều gì, nó minh họa tầm quan trọng của sự hợp tác.

— user603

+1. Không thấy tất cả điều này sớm hơn - Cảm ơn bạn đã lưu ý vấn đề cũng như khóa học sụp đổ / mini về ký hiệu stata. Tôi lấy nhận xét đầu tiên của bạn để ngụ ý việc giải thích bị nhầm lẫn và trả lời theo nghĩa rất chung chung. Tôi rất vui vì bạn đã kiên trì hơn và kwak đã tìm ra nó.

— ars