Tôi muốn thử sử dụng Support Vector Machines (SVM) trên tập dữ liệu của mình. Trước khi tôi thử vấn đề, tôi đã được cảnh báo rằng các SVM không hoạt động tốt trên dữ liệu cực kỳ mất cân bằng. Trong trường hợp của tôi, tôi có thể có tới 95-98% 0 và 2-5% 1.
Tôi đã cố gắng tìm các tài nguyên nói về việc sử dụng các SVM trên dữ liệu thưa thớt / không cân bằng, nhưng tất cả những gì tôi có thể tìm thấy là 'spzzySVM' (sử dụng một lượng nhỏ các vectơ hỗ trợ).
Tôi đã hy vọng ai đó có thể giải thích ngắn gọn:
- Làm thế nào tốt SVM sẽ được thực hiện với một bộ dữ liệu như vậy
- Mà, nếu có, phải sửa đổi thuật toán SVM
- Những tài nguyên / giấy tờ thảo luận về điều này