Mặc dù có sự giống nhau và các cách tiếp cận biến đổi dữ liệu ngày càng tăng khác, liệu rừng ngẫu nhiên "như một thuật toán" có thể được coi là một lựa chọn tốt cho phân loại dữ liệu không cân bằng?
Mặc dù có sự giống nhau và các cách tiếp cận biến đổi dữ liệu ngày càng tăng khác, liệu rừng ngẫu nhiên "như một thuật toán" có thể được coi là một lựa chọn tốt cho phân loại dữ liệu không cân bằng?
Câu trả lời:
Đó không phải là một lựa chọn tốt.
Rừng ngẫu nhiên được xây dựng trên cây quyết định và cây quyết định rất nhạy cảm với sự mất cân bằng giai cấp . Mỗi cây được xây dựng trên một túi và mỗi túi là một mẫu ngẫu nhiên thống nhất từ dữ liệu (có thay thế). Do đó, mỗi cây sẽ bị sai lệch theo cùng một hướng và độ lớn (trung bình) bởi sự mất cân bằng lớp.
Một số kỹ thuật để giảm hoặc giảm thiểu mất cân bằng lớp tồn tại, một số trong đó là chung và một số trong đó là đặc trưng cho các khu rừng ngẫu nhiên. Chủ đề đó đã được thảo luận rộng rãi cả ở đây và những nơi khác.
chỉnh sửa: Tôi sẽ thêm rằng tôi không nghĩ nó tệ hơn bất kỳ tùy chọn nào khác, ví dụ hồi quy logistic, mặc dù tôi không có bằng chứng nào cho nó
Các lớp không cân bằng chỉ là một vấn đề nếu bạn cũng có sự mất cân đối chi phí phân loại. Nếu có các lớp thiểu số nhỏ và không tốn kém hơn để phân loại chúng thành một lớp đa số so với cách khác, thì điều hợp lý cần làm là cho phép phân loại sai các lớp thiểu số.
Vì vậy, giả sử bạn có sự mất cân bằng về lớp học và chi phí. Có nhiều cách để đối phó với điều này. Cuốn sách "Mô hình dự đoán ứng dụng" của Max Kuhn có một cái nhìn tổng quan tốt trong chương 16. Những biện pháp khắc phục đó bao gồm sử dụng mức cắt khác 0,5, phản ánh chi phí không bằng nhau. Điều này rất dễ thực hiện trong phân loại nhị phân miễn là phân loại của bạn đưa ra xác suất nhãn (cây và rừng làm điều này). Tôi chưa nhìn vào nó cho nhiều lớp. Bạn cũng có thể chồng lên lớp thiểu số để tăng thêm trọng lượng.