Tôi có một bộ dữ liệu trong đó tỷ lệ sự kiện rất thấp (40.000 trên ). Tôi đang áp dụng hồi quy logistic về điều này. Tôi đã có một cuộc thảo luận với ai đó khi đưa ra rằng hồi quy logistic sẽ không đưa ra ma trận nhầm lẫn tốt trên dữ liệu tỷ lệ sự kiện thấp như vậy. Nhưng do vấn đề kinh doanh và cách nó được xác định, tôi không thể tăng số lượng sự kiện từ 40.000 lên bất kỳ số lượng lớn hơn mặc dù tôi đồng ý rằng tôi có thể xóa một số người không có liên quan.
Xin vui lòng cho tôi biết quan điểm của bạn về điều này, cụ thể:
- Độ chính xác của hồi quy logistic có phụ thuộc vào tỷ lệ sự kiện hay có bất kỳ tỷ lệ sự kiện tối thiểu nào được khuyến nghị không?
- Có bất kỳ kỹ thuật đặc biệt cho dữ liệu tỷ lệ sự kiện thấp?
- Xóa dân số không thường xuyên của tôi sẽ tốt cho tính chính xác của mô hình của tôi?
Tôi chưa quen với mô hình thống kê vì vậy hãy tha thứ cho sự thiếu hiểu biết của tôi và vui lòng giải quyết mọi vấn đề liên quan mà tôi có thể nghĩ đến.
Cảm ơn,