Tôi nghĩ rằng việc lấy mẫu con (downsampling) là một phương pháp phổ biến để kiểm soát sự mất cân bằng của lớp ở mức cơ sở, có nghĩa là nó khắc phục được gốc rễ của vấn đề. Vì vậy, đối với tất cả các ví dụ của bạn, chọn ngẫu nhiên 1.000 phần lớn của lớp mỗi lần sẽ hoạt động. Bạn thậm chí có thể chơi xung quanh với việc tạo ra 10 mô hình (gấp 10 lần so với 1.000 đa số) vì vậy bạn sẽ sử dụng toàn bộ tập dữ liệu của mình. Bạn có thể sử dụng phương pháp này, nhưng một lần nữa, bạn lại loại bỏ 9.000 mẫu trừ khi bạn thử một số phương pháp tập hợp. Dễ dàng sửa chữa, nhưng khó khăn để có được một mô hình tối ưu dựa trên dữ liệu của bạn.
Mức độ mà bạn cần kiểm soát đối với sự mất cân bằng lớp học chủ yếu dựa trên mục tiêu của bạn. Nếu bạn quan tâm đến phân loại thuần túy, thì sự mất cân bằng sẽ ảnh hưởng đến xác suất bị cắt giảm 50% đối với hầu hết các kỹ thuật, vì vậy tôi sẽ xem xét việc lấy mẫu xuống. Nếu bạn chỉ quan tâm đến thứ tự phân loại (muốn tích cực thường cao hơn âm) và sử dụng một biện pháp như AUC, sự mất cân bằng lớp sẽ chỉ làm sai lệch xác suất của bạn, nhưng thứ tự tương đối sẽ ổn định cho hầu hết các kỹ thuật.
Hồi quy logistic là tốt cho sự mất cân bằng lớp vì miễn là bạn có> 500 nhóm thiểu số, các ước tính của các tham số sẽ đủ chính xác và tác động duy nhất sẽ là đánh chặn, có thể được sửa nếu đó là điều bạn có thể muốn Hồi quy logistic mô hình xác suất thay vì chỉ các lớp, vì vậy bạn có thể thực hiện nhiều điều chỉnh thủ công hơn cho phù hợp với nhu cầu của mình.
Rất nhiều kỹ thuật phân loại cũng có một đối số trọng số lớp sẽ giúp bạn tập trung vào lớp thiểu số nhiều hơn. Nó sẽ phạt một phân loại bỏ lỡ của một nhóm thiểu số thực sự, do đó, sự thiếu sót chung của bạn sẽ bị ảnh hưởng đôi chút nhưng bạn sẽ bắt đầu thấy nhiều lớp thiểu số được phân loại chính xác.