Trong một câu hỏi gần đây, nhận được, Tim hỏi khi nào dữ liệu không cân bằng thực sự là một vấn đề trong Machine Learning ? Tiền đề của câu hỏi là có rất nhiều tài liệu học máy thảo luận về cân bằng lớp học và vấn đề của các lớp mất cân bằng . Ý tưởng là các bộ dữ liệu có sự mất cân bằng giữa lớp tích cực và tiêu cực gây ra vấn đề đối với một số thuật toán phân loại máy học (tôi bao gồm các mô hình xác suất ở đây) và các phương pháp nên được tìm cách "cân bằng" bộ dữ liệu, khôi phục 50/50 hoàn hảo phân chia giữa các lớp tích cực và tiêu cực.
Ý nghĩa chung của các câu trả lời được nêu lên là "không, ít nhất là nếu bạn chu đáo trong mô hình của mình". M. Henry L., trong một bình luận được bình chọn cho một câu trả lời được chấp nhận, tuyên bố
[...] không có vấn đề ở mức độ thấp khi sử dụng dữ liệu không cân bằng. Theo kinh nghiệm của tôi, lời khuyên để "tránh dữ liệu không cân bằng" là thuật toán cụ thể hoặc trí tuệ được kế thừa. Tôi đồng ý với AdamO rằng nói chung, dữ liệu không cân bằng đặt ra không có vấn đề khái niệm nào đối với một mô hình được chỉ định rõ.
AdamO lập luận rằng "vấn đề" với cân bằng lớp thực sự là một trong những sự hiếm có của lớp
Do đó, ít nhất là trong hồi quy (nhưng tôi nghi ngờ trong mọi trường hợp), vấn đề duy nhất với dữ liệu mất cân bằng là bạn thực sự có cỡ mẫu nhỏ. Nếu bất kỳ phương pháp nào phù hợp với số lượng người trong lớp hiếm hơn, sẽ không có vấn đề gì nếu tỷ lệ thành viên của họ bị mất cân bằng.
Nếu đây là vấn đề thực sự trong tay, nó sẽ để lại một câu hỏi mở: mục đích của tất cả các phương pháp lấy mẫu lại nhằm mục đích cân bằng tập dữ liệu: oversampling, undersampling, SMOTE, v.v? Rõ ràng họ không giải quyết vấn đề mặc nhiên có cỡ mẫu nhỏ, bạn không thể tạo ra thông tin mà không có gì!