Đây là một vấn đề thú vị và rất thường gặp trong phân loại - không chỉ trong các cây quyết định mà hầu như tất cả các thuật toán phân loại.
Như bạn đã tìm thấy theo kinh nghiệm, một tập huấn bao gồm số lượng đại diện khác nhau từ một trong hai lớp có thể dẫn đến một bộ phân loại thiên về lớp đa số. Khi được áp dụng cho một bộ kiểm tra bị mất cân bằng tương tự, bộ phân loại này mang lại ước tính độ chính xác tối ưu. Trong trường hợp cực đoan, trình phân loại có thể gán mọi trường hợp kiểm thử đơn cho lớp đa số, do đó đạt được độ chính xác bằng với tỷ lệ của các trường hợp kiểm thử thuộc về nhóm đa số. Đây là một hiện tượng nổi tiếng trong phân loại nhị phân (và nó mở rộng một cách tự nhiên cho các cài đặt đa lớp).
Đây là một vấn đề quan trọng, bởi vì một bộ dữ liệu mất cân bằng có thể dẫn đến ước tính hiệu suất tăng cao. Điều này đến lượt nó có thể dẫn đến kết luận sai về tầm quan trọng mà thuật toán đã thực hiện tốt hơn cơ hội.
Các tài liệu học máy về chủ đề này về cơ bản đã phát triển ba chiến lược giải pháp.
Bạn có thể khôi phục dư trên tập huấn luyện bởi undersampling lớp lớn hay bởi oversampling lớp nhỏ, để ngăn chặn thiên vị từ phát sinh ở nơi đầu tiên.
Ngoài ra, bạn có thể sửa đổi chi phí phân loại sai, như đã lưu ý trong phản hồi trước đó, một lần nữa để ngăn ngừa sai lệch.
ϕ:=12(π++π−),π+π−
Tôi khuyên bạn nên xem xét ít nhất hai trong số các cách tiếp cận trên cùng. Ví dụ, bạn có thể chồng chéo lớp thiểu số của mình để ngăn phân loại của bạn có được sự thiên vị có lợi cho lớp đa số. Theo đó, khi đánh giá hiệu suất của trình phân loại, bạn có thể thay thế độ chính xác bằng độ chính xác cân bằng. Hai cách tiếp cận là bổ sung. Khi áp dụng cùng nhau, họ sẽ giúp bạn vừa ngăn chặn vấn đề ban đầu của bạn vừa tránh kết luận sai sau đó.
Tôi sẽ rất vui khi được đăng một số tài liệu tham khảo bổ sung cho tài liệu nếu bạn muốn theo dõi về điều này.