Tôi không đồng ý với các câu trả lời khác trong các bình luận, vì vậy thật công bằng khi tôi đưa ra ý kiến của riêng mình. Đặt là phản hồi (tài khoản tốt / xấu) và là đồng biến.XYX
Đối với hồi quy logistic, mô hình như sau:
log(p(Y=1|X=x)p(Y=0|X=x))=α+∑ki=1xiβi
Hãy suy nghĩ về cách dữ liệu có thể được thu thập:
- Bạn có thể chọn ngẫu nhiên các quan sát từ một số "dân số" giả định
- Bạn có thể chọn dữ liệu dựa trên và xem giá trị nào của xảy ra.YXY
Cả hai trong số này là okay cho mô hình trên, như bạn chỉ mô hình hóa sự phân bố của . Đây sẽ được gọi là một nghiên cứu trong tương lai .Y|X
Cách khác:
- Bạn có thể chọn các quan sát dựa trên (giả sử 100 mỗi cái) và xem tỷ lệ tương đối của (tức là bạn đang phân tầng trên ). Đây được gọi là nghiên cứu hồi cứu hoặc kiểm soát trường hợp .X YYXY
(Bạn cũng có thể chọn dữ liệu dựa trên và một số biến nhất định của : đây sẽ là nghiên cứu kiểm soát trường hợp phân tầng và phức tạp hơn nhiều khi làm việc, vì vậy tôi sẽ không đi sâu vào đây).XYX
Có một kết quả tốt đẹp từ dịch tễ học (xem Prentice và Pyke (1979) ) rằng đối với một nghiên cứu kiểm soát trường hợp, ước tính khả năng tối đa cho có thể được tìm thấy bằng hồi quy logistic, đó là sử dụng mô hình triển vọng cho dữ liệu hồi cứu.β
Vì vậy, làm thế nào điều này có liên quan đến vấn đề của bạn?
Chà, điều đó có nghĩa là nếu bạn có thể thu thập thêm dữ liệu, bạn chỉ cần xem các tài khoản xấu và vẫn sử dụng hồi quy logistic để ước tính (nhưng bạn sẽ cần điều chỉnh để giải quyết vấn đề quá mức đại diện). Giả sử chi phí $ 1 cho mỗi tài khoản bổ sung, thì điều này có thể hiệu quả hơn về chi phí sau đó chỉ cần xem tất cả các tài khoản. αβiα
Nhưng mặt khác, nếu bạn đã có TẤT CẢ dữ liệu có thể, không có điểm nào để phân tầng: bạn chỉ đơn giản là vứt bỏ dữ liệu (đưa ra ước tính tồi tệ hơn), và sau đó gặp phải vấn đề về ước tính .α