Tôi còn khá mới với những khu rừng ngẫu nhiên. Trước đây, tôi luôn so sánh độ chính xác của sự phù hợp với thử nghiệm so với sự phù hợp với sự phù hợp để phát hiện bất kỳ sự quá mức nào. Nhưng tôi chỉ đọc ở đây rằng:
"Trong các khu rừng ngẫu nhiên, không cần xác thực chéo hoặc một bộ thử nghiệm riêng biệt để có được ước tính không thiên vị về lỗi của bộ thử nghiệm. Nó được ước tính trong nội bộ, trong quá trình chạy ..."
Đoạn nhỏ ở trên có thể được tìm thấy trong Phần ước tính lỗi ngoài túi (oob) . Khái niệm Lỗi Out of Bag này hoàn toàn mới đối với tôi và điều hơi khó hiểu là lỗi OOB trong mô hình của tôi là 35% (hay độ chính xác 65%), tuy nhiên, nếu tôi áp dụng xác thực chéo cho dữ liệu của mình (chỉ là một cách đơn giản phương pháp) và so sánh cả sự phù hợp với thử nghiệm so với sự phù hợp với sự phù hợp với đào tạo Tôi có được độ chính xác tương ứng 65% và độ chính xác 96%. Theo kinh nghiệm của tôi, điều này được coi là quá mức nhưng OOB có lỗi 35% giống như lỗi phù hợp với kiểm tra của tôi . Tôi có quá mức không? Tôi thậm chí có nên sử dụng xác nhận chéo để kiểm tra quá mức trong các khu rừng ngẫu nhiên không?
Nói tóm lại, tôi không chắc liệu tôi có nên tin tưởng OOB để nhận được một lỗi không thiên vị của lỗi thiết lập thử nghiệm hay không khi sự phù hợp của tôi so với tàu cho thấy rằng tôi đang sử dụng quá mức!