Sự khác biệt chính xác giữa các mô hình hai phần (ví dụ: mô hình Cragg) và mô hình Tobit loại 2 (ví dụ: Heckman)


8

Tôi muốn thực hiện hồi quy trong đó DV là số tiền tài trợ (tính bằng USD) mà các công ty khởi nghiệp có được. Đương nhiên, DV chứa rất nhiều zero (~ 55%) và có phân phối liên tục cho y> 0.

Nói chung, sự hiểu biết của tôi là mô hình Tobit (hoặc một biến thể của nó) đang xuất hiện để mô hình hóa DV này.

Mặc dù đã đọc và thảo luận nhiều tháng nay, tôi vẫn cố gắng tìm hiểu về sự khác biệt chính xác giữa mô hình Tobit (1958) tiêu chuẩn, các phần mở rộng hai phần được đề xuất bởi Cragg (1971) và mô hình Tobit Type 2, ví dụ, được đại diện bởi Heckmann (1974, 1976, 1979). Hiểu biết hiện tại của tôi là tất cả các mô hình có thể áp dụng trên lý thuyết với những ưu và nhược điểm khác nhau và lý do tiềm năng tại sao không sử dụng chúng (tùy thuộc vào đặc điểm chính xác của bộ dữ liệu).

Tại sao tôi loại trừ mô hình Tobit tiêu chuẩn

Đối với ứng dụng của mình, tôi đã loại trừ mô hình Tobit tiêu chuẩn vì nó chỉ cho phép cả hai quá trình được điều chỉnh bởi cùng một biến mà chỉ có một hệ số được báo cáo. Do đó, hiệu ứng của một biến nhất định không thể có một dấu hiệu khác nhau trong phương trình lựa chọn và kết quả (đôi khi là trường hợp này).

Tobit Type 2 (hoặc mô hình lựa chọn Heckmann) so với mô hình hai phần (Cragg)

Sự hiểu biết của tôi cho đến nay là sự khác biệt chính giữa hai mô hình là thực tế là các mô hình hai phần chỉ giả sử các số 0 thực, trong khi tài khoản Tobit Type 2 cũng (hoặc chỉ?) Cho các số không quan sát được (ví dụ: những người thường không hút thuốc là 0 và những người thường hút thuốc nhưng tại một thời điểm nhất định không thể đủ khả năng để hút thuốc là 0)

Tuy nhiên, điều này không hoàn toàn đúng vì Cragg (1971) ban đầu cũng đề xuất một mô hình vượt rào kép trong đó phải vượt qua 2 rào cản trước khi quan sát thấy các giá trị dương của y: "Đầu tiên, một lượng dương phải được mong muốn [(nghĩa là tôi là người hút thuốc hay không)]. Thứ hai, hoàn cảnh thuận lợi phải nảy sinh cho mong muốn tích cực được thực hiện [(nghĩa là tôi là người hút thuốc và tôi có đủ tiền để đủ khả năng hút thuốc)] ".

Tôi nghĩ điều này có nghĩa là Tobit Type II chiếm cả hai loại số không (hoặc chỉ không quan sát?) Trong phương trình lựa chọn đầu tiên và phương trình kết quả bị cắt ở y> 0, mô hình Cragg vượt rào đơn chỉ chiếm số 0 thực trong lựa chọn phương trình và mô hình Cragg vượt rào kép chiếm các số 0 'không quan sát được' trong quá trình lựa chọn và các số 0 'đúng' trong phương trình kết quả.

Câu hỏi

  • Là tuyên bố của tôi về ba mô hình chính xác? Và điều này chính xác có nghĩa là gì? Là các nguồn số không là tiêu chí quyết định duy nhất / chính? Nếu vậy, điều này có nghĩa đối với tôi liên quan đến dữ liệu của tôi: các công ty khởi nghiệp quyết định đăng ký tài trợ hay không (nguồn đầu tiên của số không -> không quan sát được), sau đó thị trường quyết định cung cấp tài chính hay không (nguồn số hai thứ hai -> được quan sát) và, trong trường hợp tích cực, bao nhiêu (y> 0) -> Mô hình vượt rào kép của Cragg (mô hình vượt rào 'đôi' thực sự thường bị nhầm lẫn với mô hình vượt rào đơn)

  • Không tôn trọng sự kết luận (có khả năng sai) của tôi: Tiêu chí quyết định chính nào tôi nên xem xét / thảo luận khi quyết định sử dụng mô hình nào (mô hình Tobit Type 2 (Heckmann) hoặc mô hình hai phần (cả hai số không là số không thực sự) hay rào cản kép (số không có thể phát sinh khi lựa chọn và tiêu thụ))? Có nhiều hơn "chỉ" nguồn gốc của số không?

Thông tin thêm

Bài viết này (rất hay đọc! Brad R. Humphreys, 2013 https://sites.ualberta.ca/~bhumphre/ class / zeros_v1.pdf ) và đặc biệt là một trong những đồ họa quan trọng của nó nhập mô tả hình ảnh ở đâylàm nổi bật sự khác biệt giữa các số không quan sát được (nghĩa là, thiếu dữ liệu, các công ty không tìm kiếm tài trợ) và quan sát các số không (nghĩa là các nhà đầu tư cung cấp tài chính hay không) rất tốt. Nó cũng cung cấp hướng dẫn về việc sử dụng mô hình nào, nhưng thật không may, không cung cấp giải pháp cho dữ liệu trong đó cả hai loại số không có mặt cùng một lúc.

Giải pháp tiềm năng

Sau khi đào sâu hơn, tôi tìm thấy hai bài báo đưa ra giải pháp thống kê cho chính xác những gì tôi đang tìm kiếm:

  • Blundell, Richard và Meghir, Costas, (1987), Bivariate thay thế cho mô hình Tobit, Tạp chí Kinh tế lượng, 34, số 1-2, tr. 179-200. ( http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternigin-to-the-tobit-model.pdf ) mô tả một mô hình rào cản kép giả định sự phụ thuộc. Đối với một ứng dụng, xem Blundell, Richard, Ham, John và Meghir, Costas, (1987), Thất nghiệp và cung ứng lao động nữ, Tạp chí kinh tế, 97, số 388a, tr. 44-64.
  • Một giải pháp khác được đưa ra bởi Moulton, Lawrence H. và Neal A. Halsey. Một mô hình hỗn hợp có giới hạn phát hiện để phân tích hồi quy phân tích phản ứng kháng thể với vắc-xin. Sinh trắc học, tập. 51, không. 4, 1995, trang 1570 Từ1578. www.jstor.org/ sóng / 2533289 , người mô tả Mô hình hỗn hợp Bernoulli / Logn normal cho dữ liệu bị kiểm duyệt cũng chiếm cả hai loại số không.

Thật không may, tôi không thể tìm thấy bất kỳ triển khai đáng tin cậy nào trong Stata hoặc R (có một gói được gọi là mhurdle, nhưng có vẻ như nó không hoạt động tốt với trọng số và ném lỗi ngẫu nhiên ...)

Bất kỳ ý kiến ​​hoặc ý tưởng thêm?


Bạn đã tự mình tìm ra một câu trả lời chưa? Nếu vậy, xin vui lòng trả lời bên dưới Tôi đang quan tâm đến câu trả lời cho các câu hỏi bạn đặt ra.
Đánh dấu

Câu trả lời:


1

Cảm ơn đã hỏi, Mark. Trong bối cảnh dữ liệu của tôi, tôi đã kết thúc bằng cách sử dụng mô hình rào cản kép được đề xuất bởi Blundell (viên đạn đầu tiên trong các giải pháp được đề xuất của tôi). Dựa trên những phản hồi tôi nhận được trong các hội nghị học thuật, đây dường như là một cách tiếp cận khả thi. Tôi cũng đã kết thúc bằng cách sử dụng mhurdle gói R. Trọng lượng đơn giản là không hoạt động - phần còn lại của mã dường như rất chắc chắn.

Về câu hỏi cụ thể của tôi; Tôi không có câu trả lời hữu hạn cho tất cả chúng, nhưng hãy để tôi thử tóm tắt những gì tôi đã học:

Là tuyên bố của tôi về ba mô hình chính xác? Nó xuất hiện như vậy - có

Là các nguồn số không là tiêu chí quyết định duy nhất / chính? Chúng chắc chắn không phải là tiêu chí quyết định duy nhất, nhưng trong bối cảnh dữ liệu có điểm số lớn bằng 0, việc dành thời gian đáng kể để hiểu cách các số không được tạo ra là vô cùng quan trọng.

Các tiêu chí quyết định chính tôi nên xem xét / thảo luận khi quyết định sử dụng loại mô hình nào? Bên cạnh các câu hỏi rõ ràng về loại biến phụ thuộc và phân phối của nó, hai câu hỏi chính liên quan đến dữ liệu có điểm khối là 0: Bạn có muốn phân biệt kết quả của mình theo hai giai đoạn khác nhau hay không đủ để báo cáo một bộ các hệ số? Nếu vậy bạn có thể sử dụng mô hình Tobit; mặt khác, bạn cần một mô hình hai phần trong đó các cuộc thảo luận về các nguồn số không khác nhau diễn ra.

Có nhiều hơn "chỉ" nguồn gốc của số không? Đúng - có. Ít nhất hai: các số 0 được quan sát / đúng và các số không quan sát / sai (số sau thực sự là NA hoặc các giá trị nhỏ được mã hóa thành 0)

Hy vọng điều này sẽ giúp bạn một chút! tháng một

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.