Ước tính các hệ số hồi quy logistic trong thiết kế điều khiển trường hợp khi biến kết quả không phải là trạng thái trường hợp / điều khiển


10

Xem xét dữ liệu lấy mẫu từ dân số có kích thước theo cách sau: VớiNk=1,...,N

  1. Quan sát cá nhân 'bệnh' tình trạng 'sk

  2. Nếu họ mắc bệnh, hãy đưa chúng vào mẫu với xác suấtpk1

  3. Nếu họ không mắc bệnh, hãy đưa họ với xác suất .pk0

Giả sử bạn đã quan sát biến kết quả nhị phân và vectơ dự đoán , với đối tượng được lấy mẫu theo cách này. Biến kết quả không phải là tình trạng "bệnh". Tôi muốn ước tính các tham số của mô hình hồi quy logistic:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Tất cả những gì tôi quan tâm là tỷ lệ cược (log), β . Việc đánh chặn là không liên quan đến tôi.

Câu hỏi của tôi là: Tôi có thể có được ước tính hợp lý của β bằng cách bỏ qua xác suất lấy mẫu {pi1,pi0} , i=1,...,n và khớp với mô hình như thể nó là một mẫu ngẫu nhiên bình thường?


Tôi khá chắc chắn câu trả lời cho câu hỏi này là "có". Những gì tôi đang tìm kiếm là một tài liệu tham khảo xác nhận điều này.

Có hai lý do chính khiến tôi tự tin về câu trả lời:

  1. Tôi đã thực hiện nhiều nghiên cứu mô phỏng và không có nghiên cứu nào mâu thuẫn với điều này, và

  2. Thật đơn giản để chỉ ra rằng, nếu dân số bị chi phối bởi mô hình trên, thì mô hình chi phối dữ liệu được lấy mẫu là

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Nếu xác suất lấy mẫu không phụ thuộc vào , thì điều này sẽ thể hiện sự dịch chuyển đơn giản sang phần chặn và ước tính điểm của rõ ràng sẽ không bị ảnh hưởng. Nhưng, nếu độ lệch khác nhau đối với mỗi người thì logic này không hoàn toàn áp dụng vì bạn chắc chắn sẽ có được ước tính điểm khác nhau, mặc dù tôi nghi ngờ điều gì đó tương tự. iβ

Liên quan: Bài báo kinh điển của Prentice và Pyke (1979) nói rằng các hệ số hồi quy logistic từ kiểm soát trường hợp (với tình trạng bệnh là kết quả) có cùng phân phối như những gì thu thập được từ một nghiên cứu tiền cứu. Tôi nghi ngờ kết quả tương tự này sẽ được áp dụng ở đây nhưng tôi phải thú nhận rằng tôi không hiểu hết từng chút của bài báo.

Cảm ơn trước cho bất kỳ ý kiến ​​/ tài liệu tham khảo.


1
Bạn nói rằng "biến kết quả không phải là tình trạng bệnh ". Những gì hiện chỉ ra? Chào mừng trở lại CV, btw. Yi=1
gung - Phục hồi Monica

1
Yi là một biến khác nhau. Ý tôi là biến số xác định xác suất lấy mẫu của bạn (thường là tình trạng bệnh trong kiểm soát trường hợp) không giống với biến kết quả - hãy suy nghĩ phân tích thứ cấp của một tập dữ liệu. Ví dụ: giả sử mẫu được tạo bởi những người sử dụng ma túy lấy mẫu một cách có hệ thống và một bộ bổ sung (khớp tần số, ghi đồng biến nhất định) của những người không sử dụng ma túy nhưng biến kết quả mà bạn đang nghiên cứu là một số phép đo hành vi khác. Trong trường hợp này sơ đồ lấy mẫu là một phiền toái. Cảm ơn, btw!
Macro

Câu trả lời:


8

Đây là một biến thể của mô hình lựa chọn trong kinh tế lượng. Tính hợp lệ của các ước tính chỉ sử dụng mẫu đã chọn ở đây tùy thuộc vào điều kiện . Ở đây là tình trạng bệnh của .Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Để biết thêm chi tiết, hãy xác định các ký hiệu sau: và ; đề cập đến sự kiện mà có trong mẫu. Hơn nữa, giả sử độc lập với vì đơn giản.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

Xác suất của cho một đơn vị trong mẫu là theo định luật lặp đi lặp lại. Giả sử có điều kiện về tình trạng bệnh và các hiệp phương sai khác , kết quả không phụ thuộc vào . Kết quả là Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Dễ dàng thấy rằng Ở đây và như được xác định sơ đồ lấy mẫu của bạn. Như vậy
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Nếu , chúng ta có và bạn có thể bỏ qua vấn đề chọn mẫu. Mặt khác, nếu , nói chung. Trong trường hợp cụ thể, hãy xem xét mô hình logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Ngay cả khi và không đổi trên , phân phối kết quả sẽ không giữ được sự hình thành logit. Quan trọng hơn, sự giao thoa của các tham số sẽ hoàn toàn khác nhau. Hy vọng rằng, các lập luận trên giúp làm rõ vấn đề của bạn một chút.pi1pi0i

đưa làm biến giải thích bổ sung và ước tính mô hình dựa trên . Để chứng minh tính hợp lệ của việc sử dụng , chúng tôi cần chứng minh rằng , tương đương với điều kiện là một thống kê đầy đủ của . Không có thêm thông tin về quy trình lấy mẫu của bạn, tôi không chắc nó có đúng không. Hãy sử dụng một ký hiệu trừu tượng. Biến quan sát có thể được xem là hàm ngẫu nhiên của và các biến ngẫu nhiên khác, giả sửDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Suy ra . Nếu độc lập với điều kiện trên và , chúng ta có theo định nghĩa độc lập. Tuy nhiên, nếu không độc lập với sau khi điều hòa trên và , trực quan chứa một số thông tin liên quan về , và nói chung không mong đợi rằngSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Do đó, trong trường hợp 'tuy nhiên', sự thiếu hiểu biết về lựa chọn mẫu có thể gây hiểu nhầm cho suy luận. Tôi không quen thuộc lắm với tài liệu chọn mẫu trong kinh tế lượng. Tôi muốn giới thiệu Chương 16 của Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookcác biến số phụ thuộc và định tính trong kinh tế lượng 'là một cách xử lý có hệ thống các vấn đề về lựa chọn mẫu và kết quả riêng biệt.


2
Cảm ơn. Đây là một câu trả lời tuyệt vời và có ý nghĩa hoàn hảo. Trong ứng dụng của tôi, giả định rằng là không thực tế. Nhưng, sẽ tốt hơn nếu thêm làm công cụ dự đoán và xem xét phân phối . Sử dụng một dẫn xuất tương tự, tôi nghĩ bạn có thể chỉ ra rằng nếu , thì bạn vẫn ổn. Đây là một giả định hợp lý trong trường hợp của tôi. Bạn nghĩ sao? BTW, bạn sẽ có bất kỳ tài liệu tham khảo nào đề cập đến vấn đề này? Tôi không quen thuộc với văn học kinh tế lượng. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Macro

Tôi cảm thấy thoải mái khi nghĩ về quá trình lựa chọn là một thử nghiệm bernoulli, tức là Theo giả định tạo dữ liệu này, thử nghiệm bernoulli này độc lập với , vì vậy tôi nghĩ chúng tôi ổn. Tôi đánh giá cao những nỗ lực và hiểu biết của bạn về vấn đề này và đang chấp nhận câu trả lời. Giả sử không có ai đi cùng với tài liệu tham khảo chính xác mà tôi đang tìm kiếm (tôi chỉ có thể đơn giản là "trích dẫn" vấn đề này thay vì lạc đề với một cuộc thảo luận mở rộng), tôi cũng sẽ trao thưởng cho bạn tiền thưởng. Chúc mừng.
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Macro

Quá trình lựa chọn này phù hợp với chiến lược của bạn. Dựa trên một vấn đề lựa chọn như vậy, vấn đề của bạn trở thành một ví dụ về sự mất tích ngẫu nhiên (MAR) trong tài liệu dữ liệu bị thiếu. Cảm ơn giải thưởng của bạn.
semibruin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.