Trong hồi quy tuyến tính đa tiêu chuẩn, khả năng phù hợp với ước lượng bình phương nhỏ nhất (OLS) trong hai bước xuất phát từ định lý Frisch mật Waugh tựa Lovell . Định lý này cho thấy ước tính của một hệ số cho một yếu tố dự báo cụ thể trong mô hình đa tuyến tính bằng với ước tính thu được bằng cách hồi quy các phần dư đáp ứng (phần dư từ hồi quy của biến trả lời so với các biến giải thích khác) so với phần dư dự báo (phần dư từ một hồi quy của biến dự đoán so với các biến giải thích khác). Rõ ràng, bạn đang tìm kiếm một sự tương tự với định lý này có thể được sử dụng trong mô hình hồi quy logistic.
Đối với câu hỏi này, rất hữu ích khi nhớ lại đặc tính biến tiềm ẩn của hồi quy logistic :
YTôi= Tôi ( Y*Tôi> 0 )Y*Tôi= β0+ βXxTôi+ βZzTôi+ εTôiεTôi~ IID Logistic ( 0 , 1 ) .
Trong đặc tính này của mô hình, biến phản hồi tiềm ẩn là không quan sát được, và thay vào đó chúng ta quan sát chỉ báo cho chúng ta biết phản ứng tiềm ẩn có dương hay không. Dạng mô hình này trông tương tự như hồi quy tuyến tính đa biến, ngoại trừ việc chúng tôi sử dụng phân phối lỗi hơi khác (phân phối logistic thay vì phân phối bình thường) và quan trọng hơn, chúng tôi chỉ quan sát một chỉ báo cho biết phản ứng tiềm ẩn có dương hay không .Y*TôiYTôi
Điều này tạo ra một vấn đề cho bất kỳ nỗ lực nào để tạo ra sự phù hợp hai bước của mô hình. Định lý Frisch-Waugh-Lovell này dựa trên khả năng thu được phần dư trung gian cho phản ứng và dự đoán lợi ích, được thực hiện đối với các biến giải thích khác. Trong trường hợp hiện tại, chúng tôi chỉ có thể thu được phần dư từ biến phản ứng "được phân loại". Tạo một quy trình phù hợp hai bước cho hồi quy logistic sẽ yêu cầu bạn sử dụng phần dư phản hồi từ biến trả lời được phân loại này, mà không truy cập vào phản hồi tiềm ẩn bên dưới. Điều này đối với tôi giống như một trở ngại lớn, và trong khi nó không chứng minh được sự bất khả thi, thì dường như không thể phù hợp với mô hình trong hai bước.
Dưới đây tôi sẽ cung cấp cho bạn một tài khoản về những gì sẽ được yêu cầu để tìm một quy trình hai bước để phù hợp với hồi quy logistic. Tôi không chắc có giải pháp nào cho vấn đề này không, hoặc nếu có bằng chứng về sự bất khả thi, nhưng tài liệu ở đây sẽ giúp bạn hiểu được những gì cần thiết.
Một hồi quy logistic hai bước sẽ phù hợp như thế nào? Giả sử chúng ta muốn xây dựng một bước phù hợp hai bước cho mô hình hồi quy logistic trong đó các tham số được ước tính thông qua ước tính khả năng tối đa ở mỗi bước. Chúng tôi muốn quá trình liên quan đến một bước trung gian phù hợp với hai mô hình sau:
YTôi= Tôi ( Y∗ ∗Tôi> 0 )Y∗ ∗Tôi= α0+ αXxTôi+ τTôi ZTôi= γ0+ γXxTôi+ δTôiτTôi~ IID Logistic ( 0 , 1 ) ,δTôi~ IID g.
Chúng tôi ước tính các hệ số của các mô hình này (thông qua MLE) và điều này mang lại các giá trị được trang bị trung gian . Sau đó, trong bước thứ hai, chúng tôi phù hợp với mô hình:α^0, α^X, γ^0, γ^X
YTôi= logistic ( α^0+ α^1xTôi) + ΒZ( zTôi- γ^0- γ^XxTôi) + ΕTôiεTôi∼ IID f.
Như đã chỉ định, quy trình có rất nhiều phần tử cố định, nhưng các hàm mật độ và trong các bước này không được chỉ định (mặc dù chúng phải là các phân phối có nghĩa là không phụ thuộc vào dữ liệu). Để có được phương pháp khớp hai bước theo các ràng buộc này, chúng ta cần chọn và để đảm bảo rằng MLE cho trong thuật toán phù hợp mô hình hai bước này giống như MLE thu được từ mô hình hồi quy logistic một bước ở trên.gfgfβZ
Để xem điều này có khả thi hay không, trước tiên chúng ta viết tất cả các tham số ước tính từ bước đầu tiên:
ℓy | x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Hãy để sao cho hàm khả năng đăng nhập cho bước thứ hai là:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Chúng tôi yêu cầu giá trị tối đa của hàm này là MLE của mô hình hồi quy logistic nhiều. Nói cách khác, chúng tôi yêu cầu:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Tôi để nó cho người khác xác định xem có giải pháp nào cho vấn đề này không, hoặc bằng chứng không có giải pháp. Tôi nghi ngờ rằng việc "phân loại" biến phản ứng tiềm ẩn trong hồi quy logistic sẽ khiến không thể tìm thấy quy trình hai bước.