Chúng tôi đã có nhiều câu hỏi về dữ liệu không cân bằng khi sử dụng hồi quy logistic , SVM , cây quyết định , đóng gói và một số câu hỏi tương tự khác, điều gì làm cho nó trở thành một chủ đề rất phổ biến! Thật không may, mỗi câu hỏi dường như là dành riêng cho thuật toán và tôi không tìm thấy bất kỳ hướng dẫn chung nào để xử lý dữ liệu không cân bằng.
Trích dẫn một trong những câu trả lời của Marc Claesen , xử lý dữ liệu không cân bằng
(...) Phụ thuộc nhiều vào phương pháp học tập. Hầu hết các cách tiếp cận mục đích chung có một (hoặc một vài) cách để đối phó với điều này.
Nhưng khi chính xác chúng ta nên lo lắng về dữ liệu không cân bằng? Những thuật toán chủ yếu bị ảnh hưởng bởi nó và có thể đối phó với nó? Những thuật toán nào sẽ cần chúng ta để cân bằng dữ liệu? Tôi biết rằng việc thảo luận về từng thuật toán sẽ là không thể trên trang web Hỏi & Đáp như thế này, tôi muốn tìm một hướng dẫn chung về khi nào nó có thể là một vấn đề.