Gần đây tôi đã suy nghĩ rất nhiều về "vấn đề mất cân bằng lớp học" trong học máy / thống kê, và ngày càng đi sâu vào cảm giác mà tôi không hiểu chuyện gì đang xảy ra.
Trước tiên hãy để tôi xác định (hoặc cố gắng) xác định các điều khoản của mình:
Các vấn đề mất cân bằng lớp trong máy học / thống kê là quan sát rằng một số phân loại nhị phân (*) thuật toán không hoạt động tốt khi tỷ lệ 0 lớp học để 1 lớp là rất sai lệch.
Vì vậy, ở trên, ví dụ, nếu có một trăm lớp cho mỗi lớp, tôi sẽ nói sự mất cân bằng của lớp là đến , hoặc .
Hầu hết các tuyên bố về vấn đề tôi đã thấy thiếu những gì tôi nghĩ là đủ điều kiện (những gì mô hình đấu tranh, mất cân bằng là một vấn đề), và đây là một trong những sự nhầm lẫn của tôi.
Một cuộc khảo sát các văn bản tiêu chuẩn trong máy học / thống kê học ít xuất hiện:
- Các yếu tố của Leaning thống kê và giới thiệu về học thống kê không chứa "sự mất cân bằng lớp học" trong chỉ mục.
Học máy cho phân tích dữ liệu dự đoán cũng không chứa "sự mất cân bằng lớp" trong chỉ mục.
Học máy của Murphy : Một viễn cảnh xác suất có chứa "sự mất cân bằng lớp * trong chỉ mục. Tham chiếu là một phần trên SVM, nơi tôi tìm thấy nhận xét trêu ngươi sau:
Điều đáng ghi nhớ là tất cả những khó khăn này, và vô số các heuristic đã được đề xuất để khắc phục chúng, về cơ bản phát sinh vì SVM không mô hình hóa sự không chắc chắn bằng cách sử dụng xác suất, vì vậy điểm số đầu ra của chúng không thể so sánh giữa các lớp.
Nhận xét này không phù hợp với trực giác và kinh nghiệm của tôi: ở công việc trước đây, chúng tôi sẽ thường xuyên điều chỉnh hồi quy logistic và mô hình cây tăng cường độ dốc (để giảm thiểu khả năng ghi nhật ký nhị thức) cho dữ liệu không cân bằng (theo thứ tự mất cân bằng lớp ), với không có vấn đề rõ ràng trong hiệu suất.
Tôi đã đọc (ở đâu đó) rằng các mô hình dựa trên cây phân loại (bản thân cây và rừng ngẫu nhiên) cũng gặp phải vấn đề mất cân bằng lớp. Điều này làm vẩn đục nước một chút, theo một nghĩa nào đó, cây sẽ trả về xác suất: bản ghi biểu quyết cho lớp mục tiêu trong mỗi nút thiết bị đầu cuối của cây.
Vì vậy, để kết thúc, những gì tôi thực sự theo đuổi là một sự hiểu biết khái niệm về các lực dẫn đến vấn đề mất cân bằng giai cấp (nếu nó tồn tại).
- Đó có phải là một cái gì đó chúng ta làm cho chính mình với các thuật toán được chọn xấu và ngưỡng phân loại mặc định lười biếng?
- Liệu nó có biến mất nếu chúng ta luôn phù hợp với các mô hình xác suất tối ưu hóa các tiêu chí chấm điểm thích hợp? Nói cách khác, nguyên nhân đơn giản là sự lựa chọn kém của chức năng mất, tức là đánh giá khả năng dự đoán của một mô hình dựa trên các quy tắc phân loại cứng và độ chính xác tổng thể?
- Nếu vậy, các mô hình không tối ưu hóa các quy tắc chấm điểm thích hợp thì vô dụng (hoặc ít nhất là ít hữu ích hơn)?
(*) Theo phân loại, tôi có nghĩa là bất kỳ mô hình thống kê nào phù hợp với dữ liệu phản hồi nhị phân. Tôi không cho rằng mục tiêu của tôi là một sự phân công khó khăn cho lớp này hay lớp kia, mặc dù nó có thể.
poor choice of loss function
vào danh sách của tôi. Vì vậy, bạn có nghĩ rằng điều này đúng ngay cả đối với các quy tắc tính điểm thích hợp là các hàm mất?