(Để trả lời ngắn gọn về điều này :)
Bạn có thể sử dụng thuật toán tăng cường độ dốc khi xử lý bộ dữ liệu không cân bằng. Khi làm việc với một bộ dữ liệu mất cân bằng mạnh, nó liên quan nhiều hơn đến câu hỏi về sự phù hợp của số liệu được sử dụng. Chúng ta có khả năng nên tránh các số liệu, như Độ chính xác hoặc Thu hồi, dựa trên các ngưỡng tùy ý và chọn tham số cho các số liệu, như chấm điểm AUCPR hoặc Brier, đưa ra một bức tranh chính xác hơn - xem chủ đề CV.SE xuất sắc về: Tại sao độ chính xác không phải là biện pháp tốt nhất để đánh giá các mô hình phân loại? để biết thêm). Tương tự như vậy, chúng tôi có khả năng có thể sử dụng một cách tiếp cận nhạy cảm với chi phí bằng cách chỉ định các chi phí phân loại sai khác nhau (ví dụ: xem Masnadi-Shirazi & Vasconcelos (2011) Tăng cường nhạy cảm với chi phíđể có cái nhìn tổng quát và đề xuất thay đổi đối với các thuật toán tăng cường đã biết hoặc cho một ứng dụng thú vị cụ thể với cách tiếp cận đơn giản hơn, hãy kiểm tra báo cáo thách thức Higgs Boson cho thuật toán XGBoost; Chen & He (2015) Higgs Boson Discovery với Boosted Plants cung cấp thêm chi tiết).
Cũng cần lưu ý rằng nếu chúng tôi sử dụng trình phân loại xác suất (như GBM), chúng tôi có thể / nên chủ động xem xét hiệu chỉnh các xác suất được trả về (ví dụ: xem Zadrozny & Elkan (2002) Chuyển đổi điểm số phân loại thành ước tính xác suất đa giác chính xác hoặc Kull et al. ( 2017) Hiệu chuẩn Beta: một cải tiến có cơ sở và được triển khai dễ dàng về hiệu chuẩn logistic cho các phân loại nhị phân ) để tăng khả năng thực hiện của học viên của chúng tôi. Đặc biệt là khi làm việc với dữ liệu mất cân bằng, nắm bắt đầy đủ các thay đổi xu hướng có thể có nhiều thông tin hơn là chỉ đơn giản là ghi nhãn dữ liệu. Ở mức độ đó, một số người có thể lập luận rằng các phương pháp tiếp cận nhạy cảm với chi phí cuối cùng không có lợi (ví dụ, xem Nikolaou và cộng sự (2016)Các thuật toán thúc đẩy nhạy cảm với chi phí: Chúng ta có thực sự cần chúng không? ). Tuy nhiên, để nhắc lại điểm ban đầu, các thuật toán tăng cường vốn không phải là xấu đối với dữ liệu mất cân bằng và trong một số trường hợp nhất định, chúng có thể cung cấp một tùy chọn rất cạnh tranh.