Tôi đang khám phá các phương pháp phân loại khác nhau cho một dự án mà tôi đang thực hiện và quan tâm đến việc thử Rừng ngẫu nhiên. Tôi đang cố gắng giáo dục bản thân khi đi cùng, và sẽ đánh giá cao bất kỳ trợ giúp nào được cung cấp bởi cộng đồng CV.
Tôi đã chia dữ liệu của mình thành tập huấn luyện / kiểm tra. Từ thử nghiệm với các khu rừng ngẫu nhiên trong R (sử dụng gói RandomForest), tôi đã gặp rắc rối với tỷ lệ phân loại sai cao cho lớp nhỏ hơn của mình. Tôi đã đọc bài viết này liên quan đến hiệu suất của các khu rừng ngẫu nhiên trên dữ liệu mất cân bằng và các tác giả đã trình bày hai phương pháp xử lý sự mất cân bằng lớp khi sử dụng các khu rừng ngẫu nhiên.
1. Rừng ngẫu nhiên có trọng số
2. Rừng ngẫu nhiên cân bằng
Gói R không cho phép tính trọng số của các lớp (từ các diễn đàn trợ giúp R, tôi đã đọc tham số classwt không hoạt động đúng và được lên lịch như là một sửa lỗi trong tương lai), vì vậy tôi có thể chỉ định tùy chọn 2. Tôi có thể chỉ định số lượng đối tượng được lấy mẫu từ mỗi lớp cho mỗi lần lặp của khu rừng ngẫu nhiên.
Tôi cảm thấy không yên tâm về việc đặt kích thước mẫu bằng nhau cho các khu rừng ngẫu nhiên, vì tôi cảm thấy mình sẽ mất quá nhiều thông tin về lớp lớn hơn dẫn đến hiệu suất kém với dữ liệu trong tương lai. Tỷ lệ phân loại sai khi lấy mẫu xuống lớp lớn hơn đã cho thấy sự cải thiện, nhưng tôi đã tự hỏi liệu có cách nào khác để đối phó với kích thước lớp mất cân bằng trong các khu rừng ngẫu nhiên không?