Cân bằng trong tập huấn luyện
Đối với mô hình hồi quy logistic, dữ liệu huấn luyện không cân bằng chỉ ảnh hưởng đến ước tính của mô hình chặn (mặc dù điều này tất nhiên làm lệch tất cả các xác suất dự đoán, do đó làm ảnh hưởng đến dự đoán của bạn). May mắn là việc hiệu chỉnh đánh chặn rất đơn giản: Với điều kiện bạn biết hoặc có thể đoán, tỷ lệ thực của 0 và 1 và biết tỷ lệ trong tập huấn luyện, bạn có thể áp dụng hiệu chỉnh sự kiện hiếm gặp cho việc chặn. Thông tin chi tiết có trong King và Zeng (2001) [ PDF ].
Những 'hiệu chỉnh sự kiện hiếm gặp' này được thiết kế cho các thiết kế nghiên cứu kiểm soát trường hợp, chủ yếu được sử dụng trong dịch tễ học, chọn các trường hợp bằng cách chọn một số 0 trường hợp và 1 trường hợp cố định, sau đó cần sửa cho sai lệch lựa chọn mẫu. Thật vậy, bạn có thể đào tạo trình phân loại của bạn theo cùng một cách. Chọn một mẫu cân bằng đẹp và sau đó sửa lỗi chặn để tính đến thực tế là bạn đã chọn biến phụ thuộc để tìm hiểu thêm về các lớp hiếm hơn một mẫu ngẫu nhiên có thể cho bạn biết.
Dự đoán
Về một chủ đề liên quan nhưng khác biệt: Đừng quên rằng bạn nên thông minh để đưa ra dự đoán. Không phải lúc nào cũng tốt nhất để dự đoán 1 khi xác suất mô hình lớn hơn 0,5. Một ngưỡng khác có thể tốt hơn. Để kết thúc này, bạn nên xem xét các đường cong Đặc tính hoạt động của người nhận (ROC) của trình phân loại của bạn, không chỉ là thành công dự đoán của nó với ngưỡng xác suất mặc định.