Tôi muốn thực hiện hồi quy trong đó DV là số tiền tài trợ (tính bằng USD) mà các công ty khởi nghiệp có được. Đương nhiên, DV chứa rất nhiều zero (~ 55%) và có phân phối liên tục cho y> 0.
Nói chung, sự hiểu biết của tôi là mô hình Tobit (hoặc một biến thể của nó) đang xuất hiện để mô hình hóa DV này.
Mặc dù đã đọc và thảo luận nhiều tháng nay, tôi vẫn cố gắng tìm hiểu về sự khác biệt chính xác giữa mô hình Tobit (1958) tiêu chuẩn, các phần mở rộng hai phần được đề xuất bởi Cragg (1971) và mô hình Tobit Type 2, ví dụ, được đại diện bởi Heckmann (1974, 1976, 1979). Hiểu biết hiện tại của tôi là tất cả các mô hình có thể áp dụng trên lý thuyết với những ưu và nhược điểm khác nhau và lý do tiềm năng tại sao không sử dụng chúng (tùy thuộc vào đặc điểm chính xác của bộ dữ liệu).
Tại sao tôi loại trừ mô hình Tobit tiêu chuẩn
Đối với ứng dụng của mình, tôi đã loại trừ mô hình Tobit tiêu chuẩn vì nó chỉ cho phép cả hai quá trình được điều chỉnh bởi cùng một biến mà chỉ có một hệ số được báo cáo. Do đó, hiệu ứng của một biến nhất định không thể có một dấu hiệu khác nhau trong phương trình lựa chọn và kết quả (đôi khi là trường hợp này).
Tobit Type 2 (hoặc mô hình lựa chọn Heckmann) so với mô hình hai phần (Cragg)
Sự hiểu biết của tôi cho đến nay là sự khác biệt chính giữa hai mô hình là thực tế là các mô hình hai phần chỉ giả sử các số 0 thực, trong khi tài khoản Tobit Type 2 cũng (hoặc chỉ?) Cho các số không quan sát được (ví dụ: những người thường không hút thuốc là 0 và những người thường hút thuốc nhưng tại một thời điểm nhất định không thể đủ khả năng để hút thuốc là 0)
Tuy nhiên, điều này không hoàn toàn đúng vì Cragg (1971) ban đầu cũng đề xuất một mô hình vượt rào kép trong đó phải vượt qua 2 rào cản trước khi quan sát thấy các giá trị dương của y: "Đầu tiên, một lượng dương phải được mong muốn [(nghĩa là tôi là người hút thuốc hay không)]. Thứ hai, hoàn cảnh thuận lợi phải nảy sinh cho mong muốn tích cực được thực hiện [(nghĩa là tôi là người hút thuốc và tôi có đủ tiền để đủ khả năng hút thuốc)] ".
Tôi nghĩ điều này có nghĩa là Tobit Type II chiếm cả hai loại số không (hoặc chỉ không quan sát?) Trong phương trình lựa chọn đầu tiên và phương trình kết quả bị cắt ở y> 0, mô hình Cragg vượt rào đơn chỉ chiếm số 0 thực trong lựa chọn phương trình và mô hình Cragg vượt rào kép chiếm các số 0 'không quan sát được' trong quá trình lựa chọn và các số 0 'đúng' trong phương trình kết quả.
Câu hỏi
Là tuyên bố của tôi về ba mô hình chính xác? Và điều này chính xác có nghĩa là gì? Là các nguồn số không là tiêu chí quyết định duy nhất / chính? Nếu vậy, điều này có nghĩa đối với tôi liên quan đến dữ liệu của tôi: các công ty khởi nghiệp quyết định đăng ký tài trợ hay không (nguồn đầu tiên của số không -> không quan sát được), sau đó thị trường quyết định cung cấp tài chính hay không (nguồn số hai thứ hai -> được quan sát) và, trong trường hợp tích cực, bao nhiêu (y> 0) -> Mô hình vượt rào kép của Cragg (mô hình vượt rào 'đôi' thực sự thường bị nhầm lẫn với mô hình vượt rào đơn)
Không tôn trọng sự kết luận (có khả năng sai) của tôi: Tiêu chí quyết định chính nào tôi nên xem xét / thảo luận khi quyết định sử dụng mô hình nào (mô hình Tobit Type 2 (Heckmann) hoặc mô hình hai phần (cả hai số không là số không thực sự) hay rào cản kép (số không có thể phát sinh khi lựa chọn và tiêu thụ))? Có nhiều hơn "chỉ" nguồn gốc của số không?
Thông tin thêm
Bài viết này (rất hay đọc! Brad R. Humphreys, 2013 https://sites.ualberta.ca/~bhumphre/ class / zeros_v1.pdf ) và đặc biệt là một trong những đồ họa quan trọng của nó làm nổi bật sự khác biệt giữa các số không quan sát được (nghĩa là, thiếu dữ liệu, các công ty không tìm kiếm tài trợ) và quan sát các số không (nghĩa là các nhà đầu tư cung cấp tài chính hay không) rất tốt. Nó cũng cung cấp hướng dẫn về việc sử dụng mô hình nào, nhưng thật không may, không cung cấp giải pháp cho dữ liệu trong đó cả hai loại số không có mặt cùng một lúc.
Giải pháp tiềm năng
Sau khi đào sâu hơn, tôi tìm thấy hai bài báo đưa ra giải pháp thống kê cho chính xác những gì tôi đang tìm kiếm:
- Blundell, Richard và Meghir, Costas, (1987), Bivariate thay thế cho mô hình Tobit, Tạp chí Kinh tế lượng, 34, số 1-2, tr. 179-200. ( http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternigin-to-the-tobit-model.pdf ) mô tả một mô hình rào cản kép giả định sự phụ thuộc. Đối với một ứng dụng, xem Blundell, Richard, Ham, John và Meghir, Costas, (1987), Thất nghiệp và cung ứng lao động nữ, Tạp chí kinh tế, 97, số 388a, tr. 44-64.
- Một giải pháp khác được đưa ra bởi Moulton, Lawrence H. và Neal A. Halsey. Một mô hình hỗn hợp có giới hạn phát hiện để phân tích hồi quy phân tích phản ứng kháng thể với vắc-xin. Sinh trắc học, tập. 51, không. 4, 1995, trang 1570 Từ1578. www.jstor.org/ sóng / 2533289 , người mô tả Mô hình hỗn hợp Bernoulli / Logn normal cho dữ liệu bị kiểm duyệt cũng chiếm cả hai loại số không.
Thật không may, tôi không thể tìm thấy bất kỳ triển khai đáng tin cậy nào trong Stata hoặc R (có một gói được gọi là mhurdle, nhưng có vẻ như nó không hoạt động tốt với trọng số và ném lỗi ngẫu nhiên ...)
Bất kỳ ý kiến hoặc ý tưởng thêm?