Nếu chúng ta xem xét một cây quyết định đã phát triển đầy đủ (tức là một cây quyết định chưa được xử lý) thì nó có phương sai cao và độ lệch thấp.
Đóng gói và Rừng ngẫu nhiên sử dụng các mô hình phương sai cao này và tổng hợp chúng để giảm phương sai và do đó tăng cường độ chính xác dự đoán. Cả Rừng đóng gói và Rừng ngẫu nhiên đều sử dụng lấy mẫu Bootstrap và như được mô tả trong "Các yếu tố của học thống kê", điều này làm tăng sự thiên vị trong một cây.
Hơn nữa, vì phương thức Rừng ngẫu nhiên giới hạn các biến được phép phân tách trong mỗi nút, nên độ lệch cho một cây rừng ngẫu nhiên duy nhất còn tăng hơn nữa.
Do đó, độ chính xác dự đoán chỉ tăng lên, nếu sự gia tăng độ lệch của các cây đơn lẻ trong Bagging và Rừng ngẫu nhiên không "che lấp" việc giảm phương sai.
Điều này dẫn tôi đến hai câu hỏi sau: 1) Tôi biết rằng với việc lấy mẫu bootstrap, chúng ta sẽ (hầu như luôn luôn) có một số quan sát tương tự trong mẫu bootstrap. Nhưng tại sao điều này lại dẫn đến sự gia tăng sai lệch của từng cây trong Bagging / Rừng ngẫu nhiên? 2) Hơn nữa, tại sao giới hạn về các biến có sẵn để phân chia trong mỗi lần phân tách dẫn đến độ lệch cao hơn trong các cây riêng lẻ trong Rừng ngẫu nhiên?