bạn cần đối phó với sự mất cân bằng lớp nếu / vì nó làm cho mô hình của bạn tốt hơn (trên dữ liệu không nhìn thấy). "Tốt hơn" là điều mà bạn phải xác định chính mình. Nó có thể là chính xác, nó có thể là một chi phí, nó có thể là tỷ lệ tích cực thực sự, vv
Có một sắc thái tinh tế rất quan trọng để nắm bắt khi nói về sự mất cân bằng giai cấp. Cụ thể, dữ liệu của bạn bị mất cân bằng vì:
- phân phối dữ liệu tự mất cân bằng
Trong một số trường hợp, một lớp xảy ra nhiều hơn một lớp khác. Và nó ổn. Trong trường hợp này, bạn phải xem xét liệu những sai lầm nhất định có tốn kém hơn những lỗi khác hay không. Đây là ví dụ điển hình của việc phát hiện các căn bệnh chết người ở bệnh nhân, tìm hiểu xem ai đó là một kẻ khủng bố, v.v ... Điều này quay trở lại câu trả lời ngắn. Nếu một số sai lầm tốn kém hơn những lỗi khác, bạn sẽ muốn "trừng phạt" chúng bằng cách cho chúng chi phí cao hơn. Do đó, một mô hình tốt hơn sẽ có chi phí thấp hơn. Nếu tất cả các sai lầm là xấu, thì không có lý do thực sự tại sao bạn nên sử dụng các mô hình nhạy cảm với chi phí.
Cũng cần lưu ý rằng việc sử dụng các mô hình nhạy cảm với chi phí không đặc trưng cho các bộ dữ liệu mất cân bằng. Bạn có thể sử dụng các mô hình như vậy nếu dữ liệu của bạn cũng được cân bằng hoàn hảo.
- nó không đại diện cho phân phối thực sự của dữ liệu
Đôi khi dữ liệu của bạn bị "mất cân bằng" vì nó không thể hiện sự phân phối dữ liệu thực sự. Trong trường hợp này, bạn phải cẩn thận, vì bạn có "quá nhiều" ví dụ về một lớp và "quá ít" của lớp kia, và do đó, bạn cần đảm bảo rằng mô hình của bạn không vượt quá / không phù hợp với một lớp của các lớp này.
Điều này khác với việc sử dụng chi phí vì có thể không phải là một sai lầm tồi tệ hơn một lỗi khác. Điều gì sẽ xảy ra là bạn sẽ bị thiên vị và sẽ không có lợi cho mô hình của bạn nếu dữ liệu không nhìn thấy không có phân phối giống như dữ liệu bạn đã đào tạo.
Giả sử tôi cung cấp cho bạn dữ liệu đào tạo và mục tiêu của bạn là đoán xem thứ gì đó có màu đỏ hay màu xanh. Cho dù bạn nhầm màu xanh với màu đỏ hay màu đỏ với màu xanh không tạo ra nhiều sự khác biệt. Dữ liệu đào tạo của bạn có 90% trường hợp màu đỏ trong đó ngoài đời thực, chúng chỉ xảy ra 10% thời gian. Bạn sẽ cần phải đối phó với điều đó để làm cho mô hình của bạn tốt hơn.