Tại sao cắt tỉa không cần thiết cho cây rừng ngẫu nhiên?


20

Breiman nói rằng những cái cây được trồng mà không cần cắt tỉa. Tại sao? Tôi muốn nói rằng phải có một lý do vững chắc tại sao cây trong rừng ngẫu nhiên không được cắt tỉa. Mặt khác, việc tỉa một cây quyết định duy nhất để tránh sự phù hợp là rất quan trọng. Có một số tài liệu có sẵn để đọc vì lý do này? Tất nhiên các cây có thể không tương quan nhưng vẫn có khả năng phù hợp hơn.


Bạn thực sự cần nói thêm về bối cảnh ở đây. @ChrisA. đã thực hiện một nỗ lực đáng chú ý, nhưng thật khó để biết câu hỏi của bạn có thực sự được trả lời hay không, bởi vì thật khó để biết nhiều về vấn đề khó khăn của bạn.
gung - Phục hồi Monica

2
Cần gì hơn nữa để nói? Câu hỏi rất rõ ràng.
Seanosapien

Câu trả lời:


20

Nói một cách đơn giản, một số khả năng phù hợp quá mức có thể xảy ra trong một cây duy nhất (đó là lý do bạn thường cắt tỉa) được giảm nhẹ bởi hai điều trong Khu rừng ngẫu nhiên:

  1. Thực tế là các mẫu được sử dụng để huấn luyện các cây riêng lẻ là "bootstrapping".
  2. Thực tế là bạn có vô số cây ngẫu nhiên sử dụng các tính năng ngẫu nhiên và do đó, các cây riêng lẻ rất mạnh nhưng không tương quan với nhau.

Chỉnh sửa: dựa trên nhận xét của OP bên dưới:

Chắc chắn vẫn còn tiềm năng cho phù hợp quá mức. Theo như các bài báo, bạn có thể đọc về động lực "đóng bao" của Breiman và "bootstrapping" nói chung của Efron và Tibshirani. Theo như 2., Brieman có một ràng buộc lỏng lẻo về lỗi tổng quát hóa có liên quan đến sức mạnh của cây và khả năng chống tương quan của các phân loại riêng lẻ. Không ai sử dụng ràng buộc (rất có thể) nhưng điều đó có nghĩa là đưa ra trực giác về những gì giúp lỗi tổng quát hóa thấp trong các phương thức tập hợp. Đây là trong bài viết của Rừng ngẫu nhiên. Bài viết của tôi là để đẩy bạn đi đúng hướng dựa trên những bài đọc này và kinh nghiệm / suy luận của tôi.

  • Breiman, L., Dự đoán đóng bao, Học máy, 24 (2), tr.123-140, 1996.
  • Efron, B.; Tibshirani, R. (1993). Giới thiệu về Bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Rừng ngẫu nhiên". Học máy 45 (1): 5 trận32.

Nhưng vẫn có thể có khả năng thừa. Bạn có thể trích dẫn một bài viết để đọc cho điều này?
Z Khan

@Z Khan Có lẽ bạn cũng là Z Khan này ? Nếu vậy, vui lòng cho chúng tôi biết để chúng tôi có thể hợp nhất tài khoản của bạn.
whuber

3
@ZKhan Vấn đề quá mức trong RF được đề cập trong các yếu tố của Học thuật thống kê của Hastie và cộng sự, (2009), Phiên bản 2 . Có một bản PDF miễn phí có sẵn tại trang web cho cuốn sách. Kiểm tra chương về rừng ngẫu nhiên.
Phục hồi Monica - G. Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.