Tôi có một bộ dữ liệu kiểm tra mất cân bằng cao. Tập hợp tích cực bao gồm 100 trường hợp trong khi tập hợp âm bao gồm 1500 trường hợp. Về mặt đào tạo, tôi có một nhóm ứng viên lớn hơn: bộ đào tạo tích cực có 1200 trường hợp và bộ đào tạo tiêu cực có 12000 trường hợp. Đối với loại kịch bản này, tôi có một số lựa chọn:
1) Sử dụng SVM có trọng số cho toàn bộ tập huấn luyện (P: 1200, N: 12000)
2) Sử dụng SVM dựa trên tập huấn luyện được lấy mẫu (P: 1200, N: 1200), 1200 trường hợp tiêu cực được lấy mẫu từ 12000 trường hợp.
Có hướng dẫn lý thuyết nào về việc quyết định phương pháp nào tốt hơn không? Vì tập dữ liệu kiểm tra rất mất cân bằng, tôi có nên sử dụng tập huấn luyện mất cân bằng không?