Tôi có thể kết hợp nhiều cây tăng cường độ dốc bằng cách sử dụng kỹ thuật đóng bao


8

Dựa trên Gradient Boosting Tree vs Random Forest . GBDT và RF sử dụng chiến lược khác nhau để giải quyết sai lệch và phương sai.

Câu hỏi của tôi là tôi có thể lấy mẫu lại tập dữ liệu (có thay thế) để đào tạo nhiều GBDT và kết hợp dự đoán của họ làm kết quả cuối cùng không?

Nó tương đương với việc xây dựng rừng ngẫu nhiên bằng cách sử dụng GBDT làm người học cơ sở

Ý tưởng là, GBDT có thể tập hợp dữ liệu quá mức (tương tự như cây quyết định phát triển đầy đủ, phương sai cao sai lệch thấp). Tôi hy vọng rằng việc sử dụng kỹ thuật đóng bao cũng có thể làm giảm vấn đề này và mong muốn có được hiệu suất tốt hơn.

Bất cứ đề nghị nào?


Chắc chắn bạn có thể, nhưng tôi sẽ nghi ngờ bạn sẽ làm tốt hơn cho cùng một nỗ lực bằng cách chỉ chạy với tỷ lệ học tập nhỏ hơn.
Matthew Drury

Câu trả lời:


4

Vâng, bạn có thể. Đóng gói như một kỹ thuật không dựa vào một cây phân loại hoặc hồi quy đơn lẻ là người học cơ sở; bạn có thể làm điều đó với bất cứ điều gì, mặc dù nhiều người học cơ sở (ví dụ, hồi quy tuyến tính) có giá trị thấp hơn những người khác. Các bootstrap tập hợp bài viết trên Wikipedia chứa một ví dụ về đóng bao smoothers hoàng thổ trên dữ liệu ô-zôn.

Tuy nhiên, nếu bạn làm như vậy, bạn gần như chắc chắn sẽ không muốn sử dụng các tham số tương tự như một GBM được điều chỉnh đầy đủ. Một phần lớn của điểm điều chỉnh GBM là để ngăn chặn quá mức; đóng bao giúp giảm quá mức thông qua một cơ chế khác, vì vậy nếu GBM được điều chỉnh của bạn không phù hợp quá nhiều, thì việc đóng bao có thể sẽ không giúp được gì nhiều - và, vì bạn có thể cần hàng trăm cây để đóng gói hiệu quả, thời gian chạy của bạn sẽ tăng lên một yếu tố của vài trăm là tốt. Vì vậy, bây giờ bạn có hai vấn đề - làm thế nào để điều chỉnh GBM của bạn do nó được nhúng trong một khu rừng ngẫu nhiên (mặc dù điều đó không quan trọng lắm để làm cho đúng, vì nó được nhúng trong một khu rừng ngẫu nhiên) và vấn đề thời gian chạy.

Đã viết tất cả những điều đó, đúng là suy nghĩ kiểu đóng bao có thể được tích hợp có lợi với GBM, mặc dù theo một cách khác. Ví dụ, H20 cung cấp tùy chọn để từng cây trong chuỗi cây GBM được phát triển trên một mẫu ngẫu nhiên của dữ liệu huấn luyện. Mẫu này được thực hiện mà không cần thay thế, vì lấy mẫu bằng thay thế được cho là làm cho cây kết quả vượt quá các phần của mẫu được lặp lại. Cách tiếp cận này được thúc đẩy rõ ràng bởi thủ tục "đóng bao thích ứng" của Breiman, xem bài viết Tăng cường độ dốc Stochastic 1999 của Friedman để biết chi tiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.