Giả sử tôi muốn tìm hiểu một trình phân loại dự đoán nếu một email là thư rác. Và giả sử chỉ có 1% email là thư rác.
Cách dễ nhất để làm là tìm hiểu trình phân loại tầm thường nói rằng không có email nào là thư rác. Trình phân loại này sẽ cung cấp cho chúng tôi độ chính xác 99%, nhưng nó sẽ không học được điều gì thú vị và sẽ có tỷ lệ âm tính giả 100%.
Để giải quyết vấn đề này, mọi người đã bảo tôi "xuống mẫu" hoặc tìm hiểu về một tập hợp con của dữ liệu trong đó 50% ví dụ là thư rác và 50% không phải là thư rác.
Nhưng tôi lo lắng về cách tiếp cận này, vì một khi chúng tôi xây dựng trình phân loại này và bắt đầu sử dụng nó trên một kho email thực sự (trái ngược với bộ kiểm tra 50/50), có thể dự đoán rằng rất nhiều email là thư rác khi chúng ' lại thực sự không. Chỉ vì nó thường thấy nhiều thư rác hơn so với thực tế trong bộ dữ liệu.
Vậy làm thế nào để chúng tôi khắc phục vấn đề này?
("Upsampling" hoặc lặp lại các ví dụ đào tạo tích cực nhiều lần để 50% dữ liệu là các ví dụ đào tạo tích cực, dường như gặp phải vấn đề tương tự.)