Nói một cách đơn giản, một số khả năng phù hợp quá mức có thể xảy ra trong một cây duy nhất (đó là lý do bạn thường cắt tỉa) được giảm nhẹ bởi hai điều trong Khu rừng ngẫu nhiên:
- Thực tế là các mẫu được sử dụng để huấn luyện các cây riêng lẻ là "bootstrapping".
- Thực tế là bạn có vô số cây ngẫu nhiên sử dụng các tính năng ngẫu nhiên và do đó, các cây riêng lẻ rất mạnh nhưng không tương quan với nhau.
Chỉnh sửa: dựa trên nhận xét của OP bên dưới:
Chắc chắn vẫn còn tiềm năng cho phù hợp quá mức. Theo như các bài báo, bạn có thể đọc về động lực "đóng bao" của Breiman và "bootstrapping" nói chung của Efron và Tibshirani. Theo như 2., Brieman có một ràng buộc lỏng lẻo về lỗi tổng quát hóa có liên quan đến sức mạnh của cây và khả năng chống tương quan của các phân loại riêng lẻ. Không ai sử dụng ràng buộc (rất có thể) nhưng điều đó có nghĩa là đưa ra trực giác về những gì giúp lỗi tổng quát hóa thấp trong các phương thức tập hợp. Đây là trong bài viết của Rừng ngẫu nhiên. Bài viết của tôi là để đẩy bạn đi đúng hướng dựa trên những bài đọc này và kinh nghiệm / suy luận của tôi.
- Breiman, L., Dự đoán đóng bao, Học máy, 24 (2), tr.123-140, 1996.
- Efron, B.; Tibshirani, R. (1993). Giới thiệu về Bootstrap. Boca Raton, FL
- Breiman, Leo (2001). "Rừng ngẫu nhiên". Học máy 45 (1): 5 trận32.