Theo như tôi đã thấy, các ý kiến có xu hướng khác nhau về điều này. Thực tiễn tốt nhất chắc chắn sẽ ra lệnh bằng cách sử dụng xác thực chéo (đặc biệt nếu so sánh RF với các thuật toán khác trên cùng một tập dữ liệu). Mặt khác, nguồn ban đầu nói rằng lỗi OOB thực tế được tính toán trong quá trình đào tạo mô hình là đủ chỉ số về hiệu suất của bộ kiểm tra. Ngay cả Trevor Hastie, trong một cuộc đàm phán tương đối gần đây nói rằng "Rừng ngẫu nhiên cung cấp xác nhận chéo miễn phí". Theo trực giác, điều này có ý nghĩa với tôi, nếu đào tạo và cố gắng cải thiện mô hình dựa trên RF trên một tập dữ liệu.
Ai đó có thể vui lòng đưa ra các lập luận cho và chống lại nhu cầu xác thực chéo với các khu rừng ngẫu nhiên không?