Tôi đang làm việc trên dữ liệu mất cân bằng nghiêm trọng. Trong tài liệu, một số phương pháp được sử dụng để cân bằng lại dữ liệu bằng cách lấy mẫu lại (lấy mẫu quá mức hoặc dưới mẫu). Hai cách tiếp cận tốt là:
SMOTE: Tổng hợp thiểu số quá mức TEchnique ( SMOTE )
ADASYN: Phương pháp lấy mẫu tổng hợp thích ứng cho việc học không cân bằng ( ADASYN )
Tôi đã triển khai ADASYN vì bản chất thích ứng của nó và dễ dàng mở rộng cho các vấn đề đa lớp.
Câu hỏi của tôi là làm thế nào để kiểm tra dữ liệu quá khổ được tạo ra bởi ADASYN (hoặc bất kỳ phương pháp quá khổ nào khác). Không rõ ràng trong hai bài báo đã đề cập đến cách họ thực hiện thí nghiệm của họ. Có hai kịch bản:
1- Ghi đè toàn bộ tập dữ liệu, sau đó tách nó thành tập huấn luyện và kiểm tra (hoặc xác nhận chéo).
2- Sau khi tách tập dữ liệu gốc, chỉ thực hiện quá mức trên tập huấn luyện và kiểm tra tập kiểm tra dữ liệu gốc (có thể được thực hiện với xác thực chéo).
Trong trường hợp đầu tiên, kết quả tốt hơn nhiều so với việc không quá khổ, nhưng tôi lo ngại nếu có quá nhiều. Trong khi trong trường hợp thứ hai, kết quả tốt hơn một chút so với không bị quá khổ và tồi tệ hơn nhiều so với trường hợp thứ nhất. Nhưng mối quan tâm với trường hợp thứ hai là nếu tất cả các mẫu lớp thiểu số đi đến bộ thử nghiệm, thì sẽ không có lợi ích nào khi lấy mẫu quá mức.
Tôi không chắc chắn nếu có bất kỳ cài đặt nào khác để kiểm tra dữ liệu đó.