Đây là lần đầu tiên tôi thực sự trả lời một câu hỏi, vì vậy đừng đặt câu hỏi cho tôi .. nhưng tôi nghĩ tôi có thể trả lời câu hỏi của bạn:
Nếu bạn thực sự chỉ quan tâm đến hiệu suất mô hình và không phải là thứ ngẫu nhiên, thì rừng ngẫu nhiên thực sự thường là một thuật toán học tập rất tốt, nhưng thực hiện kém hơn một chút trong các trường hợp sau:
1.) Khi kích thước (số tính năng) rất cao so với số lượng mẫu đào tạo, trong những trường hợp đó, hồi quy tuyến tính chính quy hoặc SVM sẽ tốt hơn.
2.) Trong trường hợp có các biểu diễn bậc cao / cấu trúc tích chập trong dữ liệu, ví dụ như trong các vấn đề về thị giác máy tính. Trong những trường hợp thị giác máy tính, một mạng lưới thần kinh tích chập sẽ vượt trội hơn một khu rừng ngẫu nhiên (Nói chung nếu có kiến thức, người ta có thể kết hợp vào việc học là một điều tốt hơn).
Điều đó được nói rằng rừng ngẫu nhiên là một điểm khởi đầu rất tốt. Một trong những người tôi ngưỡng mộ vì kỹ năng Machine Learning của anh ấy luôn bắt đầu bằng việc học một khu rừng ngẫu nhiên và một hồi quy tuyến tính chính quy.
Tuy nhiên, nếu bạn muốn hiệu suất tốt nhất có thể, tôi tin rằng ngày nay các mạng thần kinh aka. Deep Learning trông giống như một cách tiếp cận rất hấp dẫn. Ngày càng có nhiều người chiến thắng trên các trang web thách thức dữ liệu như Kaggle sử dụng các mô hình Deep Learning cho cuộc thi. Một ưu điểm khác của mạng nơ-ron là chúng có thể xử lý số lượng mẫu rất lớn (> 10 ^ 6 người ta có thể huấn luyện chúng bằng cách sử dụng độ dốc giảm dần ngẫu nhiên, cung cấp các bit dữ liệu cùng một lúc). Cá nhân tôi thấy đây là một pro rất hấp dẫn cho Deep Learning.