Tôi đang cố gắng thực hiện một hồi quy logistic khi có sự khác biệt lớn về số lượng điểm dữ liệu trong một trong hai nhóm (70 Vs 10.000). Một người bạn thống kê của tôi đã nói với tôi rằng đây là một vấn đề đã biết với hồi quy logistic và đối với những loại số đó, nó che lấp dữ liệu và về cơ bản là không hoạt động. Khi tôi bin dữ liệu và so sánh với mô hình, điều khá rõ ràng là đây chắc chắn là trường hợp.
Tôi tự hỏi liệu có ai biết một phương pháp tốt hơn / linh hoạt hơn để phù hợp với loại dữ liệu phản hồi nhị phân này không?
(Nhân tiện, tôi không phải là một nhà thống kê nên dễ dãi với tôi!)