Đồ thị trong thiết kế gián đoạn hồi quy trong ăn vặt


10

Lee và Lemieux (trang 31, 2009) đề nghị nhà nghiên cứu trình bày các biểu đồ trong khi thực hiện phân tích thiết kế gián đoạn Regression (RDD). Họ đề nghị các thủ tục sau đây:

"... Đối với một số băng thông và đối với một số thùng và ở bên trái và bên phải của giá trị ngưỡng, tương ứng, ý tưởng là xây dựng các thùng ( , ], cho + , trong đó "hK0K1bkbk+1k=1,...,K=K0K1bk=c(K0k+1)h.

c=cutoff point or threshold value of assignment variable
h=bandwidth or window width.

... sau đó so sánh kết quả trung bình ở bên trái và bên phải của điểm cắt ... "

.. trong tất cả các trường hợp, chúng tôi cũng hiển thị các giá trị được mô tả từ mô hình hồi quy bậc bốn được ước tính riêng ở mỗi bên của điểm cắt ... (trang 34 của cùng một bài viết)

Câu hỏi của tôi là làm thế nào để chúng ta lập trình quy trình đó trong Statahoặc Rđể vẽ đồ thị của biến kết quả theo biến gán (với khoảng tin cậy) cho RDD sắc nét .. Một ví dụ mẫu Statađược đề cập ở đâyở đây (thay thế bằng nd_obs) và một mẫu Ví dụ trong Rđây . Tuy nhiên, tôi nghĩ cả hai đều không thực hiện bước 1. Lưu ý rằng cả hai đều có dữ liệu thô cùng với các dòng được trang bị trong các ô.

Biểu đồ mẫu không có biến tự tin [Lee và Lemieux, 2009] nhập mô tả hình ảnh ở đây Cảm ơn bạn trước.


Để trả lời cờ của bạn, một cách hay để làm sống lại câu hỏi của bạn là chỉnh sửa nó và đưa ra một tiền thưởng: Điều này sẽ làm hỏng câu hỏi của bạn và khiến nhiều người quan tâm đến nó hơn. Nếu bạn cảm thấy câu hỏi này có thể được phục vụ tốt hơn trên Stack Overflow, hãy cho chúng tôi biết và chúng tôi có thể di chuyển nó cho bạn.
chl

Tôi muốn điều này được chuyển sang Stack Overflow.
Số liệu

1
Thật không may, câu hỏi này quá cũ để được chuyển sang Stack Overflow. Tôi tin rằng nó thuộc về Xác thực chéo nhưng nếu bạn muốn hỏi về Stack Overflow (nhấn mạnh vào khía cạnh lập trình và cung cấp một ví dụ có thể lặp lại tối thiểu ), hãy cho tôi biết và tôi sẽ đóng nó ở đây.
chl

Bạn nên sử dụng cmogram . Nó làm mọi thứ bạn cần.
Yan Song

Câu trả lời:


10

Điều này có khác nhiều so với thực hiện hai đa thức cục bộ bậc 2, một cho dưới ngưỡng và một cho ở trên với điểm trơn tru ở điểm ? Đây là một ví dụ với Stata:Ki

use votex // the election-spending data that comes with rd

tw 
(scatter lne d, mcolor(gs10) msize(tiny)) 
(lpolyci lne d if d<0, bw(0.05) deg(2) n(100) fcolor(none)) 
(lpolyci lne d if d>=0, bw(0.05) deg(2) n(100) fcolor(none)), xline(0)  legend(off)

Ngoài ra, bạn chỉ có thể lưu các giá trị được làm mịn lpoly và các lỗi tiêu chuẩn dưới dạng các biến thay vì sử dụng twoway. Dưới là bin, là giá trị trung bình được làm mịn, là lỗi tiêu chuẩn và và là giới hạn trên và dưới của Khoảng tin cậy 95% cho kết quả được làm mịn.xsseulll

lpoly lne d if d<0, bw(0.05) deg(2) n(100) gen(x0 s0) ci se(se0)
lpoly lne d if d>=0, bw(0.05) deg(2) n(100) gen(x1 s1) ci se(se1)

/* Get the 95% CIs */
forvalues v=0/1 {
    gen ul`v' = s`v' + 1.95*se`v' 
    gen ll`v' = s`v' - 1.95*se`v' 
};

tw 
(line ul0 ll0 s0 x0, lcolor(blue blue blue) lpattern(dash dash solid)) 
(line ul1 ll1 s1 x1, lcolor(red red red) lpattern(dash dash solid)), legend(off)  

Như bạn có thể thấy, các dòng trong cốt truyện đầu tiên giống như trong phần thứ hai.


@Dimitry: +1 cho giải pháp. Tuy nhiên, tôi muốn có giá trị trung bình cho mỗi thùng (vui lòng chạy ví dụ stata ở trên) thay vì biểu đồ phân tán hiển thị giá trị thô. CI là tuyệt vời.
Số liệu

1
Tôi không chắc chắn những gì bạn có ý nghĩa. Tôi đã thêm mã hóa cho thấy cách bạn có được phương tiện được làm mịn trong mỗi thùng bằng tay. Nếu đó không phải là những gì bạn đang tìm kiếm, xin vui lòng giải thích những gì bạn có trong tâm trí chi tiết hơn. Theo như tôi có thể nói, những biểu đồ này thường hiển thị dữ liệu thô và phương tiện được làm mịn.
Dimitriy V. Masterov

Để trích dẫn Lee và Lemieux (trang 31, 2009): "Một cách tiêu chuẩn để vẽ đồ thị dữ liệu là chia biến số gán (d ở đây) thành một số thùng, đảm bảo có hai thùng riêng biệt ở mỗi bên của điểm cắt điểm (để tránh việc quan sát được xử lý và không được xử lý trộn lẫn trong cùng một thùng). Sau đó, giá trị trung bình của biến kết quả có thể được tính cho mỗi thùng và được vẽ thành biểu đồ so với điểm giữa của các thùng ". Vì vậy, nếu có 50 thùng, thì chúng ta sẽ chỉ có 25 điểm dữ liệu ở bên trái và bên phải và không phải tất cả dữ liệu thô (ví dụ: Biểu đồ 6 (b) của tài liệu tham khảo: được cập nhật trong câu hỏi)
Số liệu

1
Bây giờ thì rõ rồi! Tôi đồng ý về hạt nhân. Nhưng bạn có chắc chắn bây giờ không phải là độ 0? Điều đó sẽ tương ứng với làm mịn có nghĩa là cân bằng.
Dimitriy V. Masterov

1
Tôi tin rằng điều đó tương ứng với lpoly với hạt nhân thông thường và đa thức bậc 0
Dimitriy V. Masterov

7

Đây là một thuật toán đóng hộp. Calonico, Cattaneo và Titiunik gần đây đã đề xuất một quy trình lựa chọn băng thông mạnh mẽ. Họ đã thực hiện công việc lý thuyết của họ cho cả Stata và R , và nó cũng đi kèm với một lệnh cốt truyện. Đây là một ví dụ trong R:

# install.packages("rdrobust")
library(rdrobust)
set.seed(26950) # from random.org
x<-runif(1000,-1,1)
y<-5+3*x+2*(x>=0)+rnorm(1000)
rdplot(y,x)

Điều đó sẽ cung cấp cho bạn biểu đồ này: nhập mô tả hình ảnh ở đây


Xin chào, làm thế nào để thêm CI?
Krantz
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.