[chỉnh sửa 21.7.15 8:31 CEST]
Tôi cho rằng bạn đã sử dụng RF để phân loại. Bởi vì trong trường hợp này, thuật toán tạo ra các cây được trồng hoàn toàn với các nút đầu cuối thuần túy chỉ có một lớp mục tiêu.
predict(model, data=X_train)
Dòng mã hóa này giống như một con chó đuổi theo [~ 66%] đuôi của chính nó. Dự đoán của bất kỳ mẫu đào tạo nào là lớp của chính mẫu đào tạo đó. Đối với hồi quy RF dừng nếu nút có 5 mẫu hoặc ít hơn trong đó hoặc nếu nút là thuần túy. Ở đây lỗi dự đoán sẽ nhỏ nhưng không phải là 0%.
Trong học máy chúng ta thường làm việc với không gian giả thuyết lớn. Điều này có nghĩa là sẽ luôn có nhiều giả thuyết / giải thích / mô hình chưa được làm sai lệch về cấu trúc dữ liệu của tập huấn luyện của chúng tôi. Trong thống kê cổ điển là không gian giả thuyết thường nhỏ và do đó, sự phù hợp mô hình trực tiếp là thông tin phù hợp với một số lý thuyết xác suất giả định. Trong học máy, sự thiếu phù hợp trực tiếp liên quan đến sự thiên vị của mô hình. Xu hướng là "tính không linh hoạt" của mô hình. Nó khôngdù sao cũng cung cấp một xấp xỉ sức mạnh tổng quát (khả năng dự đoán các sự kiện mới). Đối với các mô hình thuật toán, xác thực chéo là công cụ tốt nhất để ước lượng sức mạnh tổng quát, vì không có lý thuyết nào được đưa ra. Tuy nhiên, nếu các giả định mô hình của lấy mẫu độc lập thất bại, dù sao thì mô hình có thể vô dụng, ngay cả khi xác thực chéo được thực hiện tốt đề xuất khác. Cuối cùng, bằng chứng mạnh mẽ nhất là dự đoán thỏa đáng một số bộ thử nghiệm bên ngoài có nguồn gốc khác nhau.
Quay lại CV: Out-bag-bag thường là một loại CV được chấp nhận. Cá nhân tôi cho rằng OOB-CV cung cấp kết quả tương tự như 5 lần CV, nhưng đây là một phiền toái rất nhỏ. Nếu để so sánh, hãy nói RF với SVM, thì OOB-CV không hữu ích vì chúng ta thường tránh bỏ túi SVM. Thay vào đó, cả SVM và RF sẽ được nhúng vào cùng một sơ đồ xác thực chéo chính xác, ví dụ 10 lần lặp lại 10 lần với các phân vùng phù hợp cho mỗi lần lặp lại. Bất kỳ bước kỹ thuật tính năng nào cũng thường sẽ cần được xác nhận chéo. Nếu để giữ mọi thứ sạch sẽ, toàn bộ đường ống dữ liệu có thể được nhúng trong CV.
Nếu bạn điều chỉnh mô hình của mình bằng bộ kiểm tra (hoặc xác thực chéo), bạn sẽ lại tăng thêm không gian giả thuyết của mình và hiệu suất dự đoán được xác thực có khả năng quá lạc quan. Thay vào đó, bạn sẽ cần một bộ hiệu chuẩn (hoặc vòng CV hiệu chỉnh) để điều chỉnh và bộ xác thực kiểm tra (hoặc vòng CV xác thực) để đánh giá mô hình tối ưu cuối cùng của bạn.
Theo nghĩa cực đoan, điểm xác nhận của bạn sẽ chỉ là không thiên vị nếu bạn không bao giờ hành động với kết quả này, khi bạn nhìn thấy nó. Đây là nghịch lý của xác nhận, vì tại sao chúng ta sẽ có được một kiến thức chỉ đúng nếu bạn không hành động theo nó. Trong thực tế, cộng đồng sẵn sàng chấp nhận một số sai lệch xuất bản, trong đó những nhà nghiên cứu có xác nhận quá lạc quan một cách ngẫu nhiên có nhiều khả năng xuất bản hơn so với những người không may mắn xác nhận quá bi quan. Vì vậy, đôi khi tại sao không thể sao chép các mô hình khác.