Trong bối cảnh học máy, giả sử bạn có một vấn đề trong đó các lớp trong dân số thực không cân bằng - ví dụ: Lớp A xảy ra 80% thời gian và Lớp B xảy ra 20% thời gian.
Trong trường hợp như vậy, nói chung có tốt hơn khi có một thuật toán ML nhất định dựa trên dữ liệu có cùng tỷ lệ lớp 80/20 hoặc dữ liệu có tỷ lệ cân bằng (50/50) không? a) liên quan đến dữ liệu đào tạo b) liên quan đến dữ liệu thử nghiệm
Câu hỏi tiếp theo: Trong trường hợp câu trả lời cho (a) hoặc (b) xảy ra với tỷ lệ 50/50 cân bằng, thì sở thích này thường vẫn tồn tại ngay cả trong bối cảnh thực tế nơi dữ liệu mà người ta có quyền truy cập xảy ra của tỷ lệ 80/20? Nói cách khác, lợi ích của việc sử dụng tỷ lệ cân bằng để huấn luyện và / hoặc kiểm tra có cao hơn chi phí thực thi tỷ lệ đó (ví dụ: loại bỏ các trường hợp từ lớp đa số hoặc tạo mẫu tổng hợp mới của lớp thiểu số)?