Tôi đã gắn nhãn dữ liệu gồm 10000 ví dụ tích cực và 50000 ví dụ tiêu cực, đưa ra tổng số 60000 ví dụ. Rõ ràng dữ liệu này là mất cân bằng.
Bây giờ hãy để chúng tôi nói rằng tôi muốn tạo bộ xác thực của mình và tôi muốn sử dụng 10% dữ liệu của mình để làm như vậy. Câu hỏi của tôi như sau:
Tôi có nên đảm bảo rằng bộ xác thực của mình C ALNG bị mất cân bằng, (như một cái gật đầu với phân phối thực sự của tập huấn luyện), hay tôi nên đảm bảo rằng bộ xác thực của mình được cân bằng? Vì vậy, ví dụ, bộ xác thực của tôi nên được thực hiện từ:
- 10% ví dụ tích cực + 10% tiêu cực, đưa ra 1000+ và 5000- ví dụ. (Bộ xác nhận này phản ánh sự mất cân bằng dữ liệu gốc).
- Hoặc bộ xác thực có nên được thực hiện từ 10% dương, cho 1000+ và (10/5 = 2%) phủ định, cũng đưa ra 1000- ví dụ không?
(Câu hỏi tương tự cho bộ kiểm tra).
Dường như có rất nhiều phương pháp về cách huấn luyện với dữ liệu mất cân bằng, nhưng không nơi nào tôi có thể thấy để tìm ra các thực tiễn tốt nhất về việc liệu bộ xác thực của tôi có nên phản ánh sự mất cân bằng ban đầu hay không. Cuối cùng, tôi KHÔNG thực hiện xác nhận chéo, tôi sẽ sử dụng một bộ xác thực duy nhất và một mạng lưới thần kinh.
Cảm ơn!