Tôi đã tìm thấy He và Garcia (2009) là một đánh giá hữu ích về việc học tập trong các vấn đề của lớp không cân bằng. Dưới đây là một số điều chắc chắn không toàn diện để xem xét:
Phương pháp dựa trên dữ liệu:
Người ta có thể gạch dưới lớp đa số hoặc chồng chéo lớp thiểu số. (Breiman chỉ ra rằng điều này chính thức tương đương với việc gán chi phí phân loại sai không đồng nhất.) Điều này có thể gây ra vấn đề: Việc lấy mẫu có thể khiến người học bỏ lỡ các khía cạnh của lớp đa số; quá khổ làm tăng nguy cơ thừa.
Có các phương pháp "lấy mẫu thông tin" làm giảm các vấn đề này. Một trong số đó là EasyEnsemble , lấy mẫu độc lập một số tập hợp con từ lớp đa số và tạo nhiều phân loại bằng cách kết hợp mỗi tập hợp con với tất cả dữ liệu của lớp thiểu số.
SMOTE (Kỹ thuật tổng hợp quá mức thiểu số) hoặc SMOTEBoost, (kết hợp SMOTE với tăng tốc) tạo ra các thể hiện tổng hợp của lớp thiểu số bằng cách tạo các hàng xóm gần nhất trong không gian tính năng. SMOTE được triển khai trong R trong gói DMwR (đi kèm với cuốn sách Khai thác dữ liệu của Luis Torgo với R, học với các nghiên cứu trường hợp ấn định CRC Press 2016 ).
Phương pháp phù hợp mô hình
Áp dụng các trọng số riêng cho từng lớp trong hàm mất mát của bạn (các trọng số lớn hơn cho các trường hợp thiểu số).
Đối với các cách tiếp cận dựa trên cây, bạn có thể sử dụng khoảng cách Hellinger làm hàm tạp chất nút, như được ủng hộ trong Cieslak et al. "Cây quyết định khoảng cách Hellinger rất mạnh mẽ và không nhạy cảm" ( mã Weka ở đây .)
Sử dụng một trình phân loại một lớp , học một (tùy thuộc vào mô hình) mật độ xác suất hoặc ranh giới cho một lớp và coi lớp kia là ngoại lệ.
Tất nhiên, không sử dụng độ chính xác làm số liệu cho việc xây dựng mô hình. Cohen's kappa là một sự thay thế hợp lý.
Phương pháp đánh giá mô hình
Nếu mô hình của bạn trả về xác suất dự đoán hoặc các điểm số khác, hãy chọn một điểm dừng quyết định tạo ra sự đánh đổi thích hợp trong các lỗi (sử dụng bộ dữ liệu độc lập với đào tạo và thử nghiệm). Trong R, gói OptimalCutpoint thực hiện một số thuật toán, bao gồm cả các thuật toán nhạy cảm với chi phí, để quyết định cắt bỏ.