Trong Rừng ngẫu nhiên, mỗi cây được trồng song song trên một mẫu dữ liệu độc đáo. Bởi vì mỗi mẫu boostrap dự kiến sẽ chứa khoảng 63% các quan sát duy nhất, điều này để lại khoảng 37% các quan sát, có thể được sử dụng để kiểm tra cây.
Bây giờ, có vẻ như trong Stochastic Gradient Boosting, cũng có một ước tính tương tự như trong RF:
Nếu bag.fraction được đặt lớn hơn 0 (khuyến nghị 0,5), gbm sẽ tính toán ước tính vượt túi về sự cải thiện hiệu suất dự đoán. Nó đánh giá việc giảm độ lệch đối với những quan sát không được sử dụng trong việc chọn cây hồi quy tiếp theo.
Nguồn: Ridgeway (2007) , phần 3.3 (trang 8).
Tôi gặp khó khăn trong việc hiểu làm thế nào nó hoạt động / là hợp lệ. Nói rằng tôi đang thêm một cây trong chuỗi. Tôi đang trồng cây này trên một mẫu con ngẫu nhiên của tập dữ liệu gốc. Tôi có thể kiểm tra cây duy nhất này trên các quan sát không được sử dụng để trồng nó. Đã đồng ý. NHƯNG , vì Boosting là tuần tự, tôi thay vì sử dụng toàn bộ chuỗi cây được xây dựng cho đến nay để đưa ra dự đoán cho những quan sát còn sót lại. Và, có khả năng cao là nhiều cây trước đó đã nhìn thấy những quan sát này. Vì vậy, mô hình không thực sự được thử nghiệm ở mỗi vòng trên các quan sát chưa thấy như với RF, phải không?
Vì vậy, làm thế nào mà cái này được gọi là ước tính lỗi "hết túi"? Đối với tôi, nó dường như không "nằm ngoài" bất kỳ chiếc túi nào vì những quan sát đã được nhìn thấy?