Có một triển khai rừng ngẫu nhiên R hoạt động tốt với dữ liệu rất thưa thớt không? Tôi có hàng ngàn hoặc hàng triệu biến đầu vào boolean, nhưng chỉ hàng trăm hoặc hơn sẽ là TRUE cho bất kỳ ví dụ cụ thể nào.
Tôi còn khá mới với R và nhận thấy rằng có một gói 'Ma trận' để xử lý dữ liệu thưa thớt, nhưng gói 'RandomForest' tiêu chuẩn dường như không nhận ra loại dữ liệu này. Nếu có vấn đề, dữ liệu đầu vào sẽ được tạo ra bên ngoài R và được nhập.
Có lời khuyên nào không? Tôi cũng có thể xem xét sử dụng Weka, Mahout hoặc các gói khác.