Tại sao cây đóng gói / cây rừng ngẫu nhiên có độ lệch cao hơn cây quyết định?


11

Nếu chúng ta xem xét một cây quyết định đã phát triển đầy đủ (tức là một cây quyết định chưa được xử lý) thì nó có phương sai cao và độ lệch thấp.

Đóng gói và Rừng ngẫu nhiên sử dụng các mô hình phương sai cao này và tổng hợp chúng để giảm phương sai và do đó tăng cường độ chính xác dự đoán. Cả Rừng đóng gói và Rừng ngẫu nhiên đều sử dụng lấy mẫu Bootstrap và như được mô tả trong "Các yếu tố của học thống kê", điều này làm tăng sự thiên vị trong một cây.

Hơn nữa, vì phương thức Rừng ngẫu nhiên giới hạn các biến được phép phân tách trong mỗi nút, nên độ lệch cho một cây rừng ngẫu nhiên duy nhất còn tăng hơn nữa.

Do đó, độ chính xác dự đoán chỉ tăng lên, nếu sự gia tăng độ lệch của các cây đơn lẻ trong Bagging và Rừng ngẫu nhiên không "che lấp" việc giảm phương sai.

Điều này dẫn tôi đến hai câu hỏi sau: 1) Tôi biết rằng với việc lấy mẫu bootstrap, chúng ta sẽ (hầu như luôn luôn) có một số quan sát tương tự trong mẫu bootstrap. Nhưng tại sao điều này lại dẫn đến sự gia tăng sai lệch của từng cây trong Bagging / Rừng ngẫu nhiên? 2) Hơn nữa, tại sao giới hạn về các biến có sẵn để phân chia trong mỗi lần phân tách dẫn đến độ lệch cao hơn trong các cây riêng lẻ trong Rừng ngẫu nhiên?

Câu trả lời:


5

Tôi sẽ chấp nhận câu trả lời trên 1) từ Kunlun, nhưng chỉ để kết thúc trường hợp này, tôi sẽ đưa ra kết luận về hai câu hỏi mà tôi đạt được trong luận án của mình (cả hai đều được Giám sát viên của tôi chấp nhận):

1) Nhiều dữ liệu tạo ra các mô hình tốt hơn và vì chúng tôi chỉ sử dụng một phần của toàn bộ dữ liệu đào tạo để huấn luyện mô hình (bootstrap), nên độ lệch cao hơn xảy ra trong mỗi cây (Sao chép từ câu trả lời của Kunlun)

2) Trong thuật toán Rừng ngẫu nhiên, chúng tôi giới hạn số lượng biến được phân chia trong mỗi lần phân tách - tức là chúng tôi giới hạn số lượng biến để giải thích dữ liệu của chúng tôi. Một lần nữa, sự thiên vị cao hơn xảy ra trong mỗi cây.

Kết luận: Cả hai tình huống là một vấn đề giới hạn khả năng giải thích dân số của chúng tôi: Đầu tiên chúng tôi giới hạn số lượng quan sát, sau đó chúng tôi giới hạn số lượng biến để phân chia trong mỗi phân chia. Cả hai hạn chế đều dẫn đến độ lệch cao hơn ở mỗi cây, nhưng thường thì việc giảm phương sai trong mô hình sẽ vượt quá mức tăng sai lệch ở mỗi cây, và do đó, Bagging và Random Forests có xu hướng tạo ra một mô hình tốt hơn chỉ là một cây quyết định.


-1

Câu hỏi của bạn khá đơn giản. 1) Nhiều dữ liệu tạo ra mô hình tốt hơn, vì bạn chỉ sử dụng một phần của toàn bộ dữ liệu đào tạo để đào tạo mô hình của mình (bootstrap), độ lệch cao hơn là hợp lý. 2) Chia tách nhiều hơn có nghĩa là cây sâu hơn, hoặc các nút tinh khiết hơn. Điều này thường dẫn đến phương sai cao và sai lệch thấp. Nếu bạn giới hạn sự phân chia, phương sai thấp hơn và độ lệch cao hơn.


4
Tôi hoàn toàn không mua đối số cho 1), vì mỗi mẫu bootstrap đều có khả năng như nhau và xu hướng là về hành vi của mô hình trung bình. Có vẻ như nó phải tinh tế hơn thế. Tôi cũng không nghĩ 2) giải quyết câu hỏi. Áp phích không có nghĩa là "chia tách giới hạn" như trong "trồng cây nông".
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.