Kết hợp điểm số với dữ liệu bảng


13

Tôi có một bộ dữ liệu theo chiều dọc của các cá nhân và một số trong số họ đã được điều trị và những người khác thì không. Tất cả các cá nhân trong mẫu từ sơ sinh đến 18 tuổi và việc điều trị xảy ra ở một độ tuổi nào đó trong khoảng đó. Độ tuổi điều trị có thể khác nhau giữa các trường hợp. Sử dụng kết hợp điểm số phù hợp Tôi muốn ghép các đơn vị được điều trị và kiểm soát theo cặp với khớp chính xác vào năm sinh để tôi có thể theo dõi từng cặp từ lúc sinh cho đến tuổi 18. Tất cả có khoảng 150 cá nhân được điều trị và 4000 người không được điều trị. Sau khi kết hợp, ý tưởng là sử dụng chiến lược khác biệt để ước tính hiệu quả của việc điều trị.

Vấn đề tôi gặp phải vào lúc này là thực hiện khớp với dữ liệu bảng. Tôi đang sử dụng psmatch2lệnh của Stata và tôi phù hợp với các đặc điểm của hộ gia đình và cá nhân bằng cách sử dụng kết hợp điểm xu hướng. Nói chung với dữ liệu bảng điều khiển sẽ có các trận đấu tối ưu khác nhau ở mỗi độ tuổi. Ví dụ: nếu A được điều trị, B và C là đối chứng và tất cả chúng đều được sinh ra vào năm 1980, thì A và B có thể được khớp vào năm 1980 ở tuổi 0 trong khi A và C được khớp vào năm 1981 ở tuổi 1 và cứ thế . Ngoài ra A có thể được khớp với các giá trị tiền xử lý của chính nó từ các năm trước.

Để giải quyết vấn đề này, tôi đã lấy trung bình của tất cả các biến số thay đổi theo thời gian sao cho khớp có thể xác định các cá nhân trung bình giống nhau nhất trong suốt thời gian của mẫu và tôi thực hiện khớp riêng cho từng nhóm tuổi từ 0 đến 18. Thật không may, điều này vẫn phù hợp với một đơn vị kiểm soát khác nhau cho mỗi đơn vị được điều trị cho mỗi nhóm tuổi.

Nếu ai đó có thể hướng tôi đến một phương pháp để thực hiện khớp cặp với dữ liệu bảng trong Stata thì điều này sẽ được đánh giá rất cao.

Câu trả lời:


9

Về cơ bản, bạn phải tạo một tập dữ liệu định dạng rộng với tất cả các đặc điểm có liên quan đến quy trình khớp, thực hiện khớp trên tập dữ liệu cắt ngang này và sau đó sử dụng ID để xác định cặp khớp trong tập dữ liệu bảng. Dưới đây là một số chi tiết:

  1. Sử dụng reshapeđể tạo một tập dữ liệu định dạng rộng. Định dạng các biến tiền xử lý theo cách bạn muốn sử dụng chúng trong quy trình khớp. Bạn chỉ có thể lấy trung bình các biến của mình nếu bạn có nhiều quan sát cho một cá nhân nhưng bạn cũng có thể đưa ra các cách khác (bạn cũng có thể giữ nhiều quan sát của cùng một biến như Health1, Health2 và sử dụng tất cả các biến đó trong kết hợp ). Mục tiêu là để có một bộ dữ liệu với một quan sát cho mỗi cá nhân .

  2. Sử dụng bộ dữ liệu này, thực hiện các thủ tục phù hợp với psmatch2.

  3. Hợp nhất thông tin về các trường hợp khớp với tập dữ liệu gốc. Các trường hợp thả không khớp, v.v. Tôi không chắc về các chi tiết ở đây vì tôi không thực sự biết stata và psmatch2tôi nghĩ bạn hiểu ý.

Sử dụng các bước này, bạn có thể khớp các trường hợp dựa trên tất cả các thông tin trước điều trị và bạn chỉ có một trận đấu cho mỗi đơn vị điều trị.


3
Tôi thực sự không biết tại sao bài đăng này bị bỏ phiếu vì câu trả lời này thực sự có ích. Tôi sẽ bỏ phiếu một lần nữa. Cảm ơn greg!
Andy

5

Không có cách nào để làm điều đó trong Stata hoặc bất kỳ phần mềm nào khác mà tôi biết.

Nếu bạn đang cố gắng vá một công cụ ước tính phù hợp thiên vị bằng các kỹ thuật dữ liệu bảng, thì đây là một cách tiếp cận có thể hoạt động. Nếu bạn có thể giả định rằng kết hợp sẽ quan tâm đến một số, nhưng không phải tất cả các sai lệch lựa chọn, nhưng phần lớn sai lệch vẫn không đổi theo thời gian, bạn có thể loại bỏ phần bất biến theo thời gian bằng cách xây dựng các ước tính đối sánh riêng biệt trong từng giai đoạn và thực hiện Sự khác biệt.

tt'Y0

E[Y0t|X,D= =1]-E[Y0t|X,D= =0]= =E[Y0t'|X,D= =1]-E[Y0t'|X,D= =0]= =BTôimộtS,
Δt'M= =ΔTT+BTôimộtSΔtM= =BTôimộtSΔt'M-ΔtM= =ΔTT

Heckman, Ichimura, Smith và Todd 1998 Các bài báo Kinh tế học Lao động và Eichler và Lechner 2002 là những ví dụ về phương pháp này. Mặt khác, 150 quan sát được điều trị có thể không đủ để phương pháp này hoạt động.


1
Có thể kết hợp các cá nhân theo cặp với dữ liệu bảng vì hai giấy tờ này ( paper1 , paper2 ) cũng làm điều đó. Thật không may, các tác giả không nói chính xác làm thế nào họ làm điều đó. Ý tưởng bạn đang mô tả với Heckman et al (1998) chính xác là lý do để sử dụng Diff-in-Diff sau khi kết hợp theo cặp.
Andy

Tôi không rõ ràng rằng họ đang thực hiện khớp bảng điều khiển, nhưng bạn nói đúng rằng các quy trình rất mơ hồ. Các tác giả đã viết pscore, báo hiệu một sự sẵn sàng nhất định để giúp đỡ người khác. Có lẽ một email cho họ sẽ làm rõ mọi thứ. Hãy báo cáo những gì họ nói. Đây là một câu hỏi quan trọng.
Dimitriy V. Masterov

0

Các bước:

  1. Như đã được đề cập chi tiết bởi Greg, bạn có thể sử dụng bộ dữ liệu cắt ngang, trên phương tiện tiền xử lý hoặc trên giai đoạn tiền xử lý riêng biệt để tạo ra sự phù hợp.

  2. Sử dụng toàn bộ bảng bạn gán các biến chỉ báo cho
    a. được điều trị Cá nhân
    b. TreatmentPeriod, sau này bằng 0 ngay khi điều trị xảy ra cho Cá nhân được điều trị.

    Vì thời điểm mà TreatmentPeriod thay đổi từ 0 thành 1 khác nhau giữa các cá nhân và không bao giờ chuyển thành 1 cho không được điều trị, bạn phải gán cùng một điểm bắt đầu từ trận đấu được điều trị cho trận đấu chưa được xử lý. Điều này là trực quan nhưng tôi vẫn muốn thấy một tài liệu tham khảo tốt biện minh cho phương pháp này mà tôi chưa tìm thấy cho đến nay.

Thiết lập hồi quy sẽ là:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

trong đó thuật ngữ tương tác cung cấp cho bạn hiệu quả điều trị.


-2

Bạn đã xem xét để sử dụng lệnh nnmatch ?

Tôi sử dụng lệnh này và nó là một thứ khá toàn diện. Nó có tính đến các thuật toán phù hợp khác nhau và cả các trường hợp, trong đó điểm số xu hướng là như nhau đối với một số cá nhân trong nhóm kiểm soát. Tất nhiên, việc xử lý trường hợp này phụ thuộc vào thuật toán phù hợp, nếu bạn lấy k-lân cận hoặc hạt nhân hoặc bất cứ điều gì.


Trong bài viết bạn tham khảo, tôi thấy không đề cập đến dữ liệu bảng điều khiển. Bạn đã sử dụng dữ liệu bảng điều khiển chưa? Nếu vậy, vui lòng cụ thể và cung cấp một số mã để trả lời câu hỏi của OP.
Số liệu

Việc kết hợp chính xác dễ dàng hơn nhưng tổng thể nnmatch phức tạp hơn vì nó không lưu trữ ID phù hợp bên trong tập dữ liệu hiện tại mà ở một bộ riêng biệt. Tôi sẽ kết thúc với một bộ dữ liệu cho từng nhóm tuổi cần được hợp nhất với dữ liệu gốc. Hợp nhất trong trường hợp này không hoạt động vì các đặc điểm phù hợp không xác định duy nhất các cá nhân trong dữ liệu gốc. Thật không may, điều này không cung cấp một giải pháp.
Andy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.