Có phải mô hình hóa với Rừng ngẫu nhiên yêu cầu xác nhận chéo?

Theo như tôi đã thấy, các ý kiến có xu hướng khác nhau về điều này. Thực tiễn tốt nhất chắc chắn sẽ ra lệnh bằng cách sử dụng xác thực chéo (đặc biệt nếu so sánh RF với các thuật toán khác trên cùng một tập dữ liệu). Mặt khác, nguồn ban đầu nói rằng lỗi OOB thực tế được tính toán trong quá trình đào tạo mô hình là đủ chỉ số về hiệu suất của bộ kiểm tra. Ngay cả Trevor Hastie, trong một cuộc đàm phán tương đối gần đây nói rằng "Rừng ngẫu nhiên cung cấp xác nhận chéo miễn phí". Theo trực giác, điều này có ý nghĩa với tôi, nếu đào tạo và cố gắng cải thiện mô hình dựa trên RF trên một tập dữ liệu.

Ý kiến của bạn về điều này là gì?

— tế bào thần kinh
nguồn

đây không phải là giải quyết vấn đề chính của câu hỏi - nhưng có lẽ bạn vẫn muốn xác thực chéo các tham số phụ (chẳng hạn như độ sâu của cây, v.v.)

— Wouter

Bạn có thể sử dụng RF hoặc so sánh nó với các phương pháp khác về hiệu suất trên tập huấn luyện hoặc sử dụng dữ liệu độc lập / tập hợp con để kiểm tra hiệu suất. Đó là một câu hỏi về giả thuyết của bạn: bạn đang cố gắng khái quát hóa kết quả cho một dân số lớn hơn hay chỉ để phân loại dữ liệu trong tay, chứ không phải là một tài sản của RF.

— katya

$1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Như @Wouter chỉ ra, có lẽ bạn sẽ muốn thực hiện xác thực chéo để điều chỉnh tham số, nhưng theo ước tính của lỗi bộ kiểm tra, lỗi OOB sẽ ổn.

— einar
nguồn