k Xác thực chéo
Giả sử bạn có 100 điểm dữ liệu. Để xác thực chéo lần, 100 điểm này được chia thành 'nếp gấp' có kích thước bằng nhau và loại trừ lẫn nhau. Với = 10, bạn có thể chỉ định các điểm 1-10 để gấp # 1, 11-20 để gấp # 2, v.v., hoàn thành bằng cách chỉ định các điểm 91-100 để gấp # 10. Tiếp theo, chúng tôi chọn một lần để đóng vai trò là tập kiểm tra và sử dụng các lần gấp còn lại để tạo thành dữ liệu huấn luyện. Đối với lần chạy đầu tiên, bạn có thể sử dụng điểm 1-10 làm tập kiểm tra và 11-100 làm tập huấn luyện. Lần chạy tiếp theo sau đó sẽ sử dụng các điểm 11-20 làm bộ kiểm tra và huấn luyện trên các điểm 1-10 cộng với 21-100, và cứ thế, cho đến khi mỗi lần được sử dụng một lần làm bộ kiểm tra.kkkk−1
Xác nhận chéo Monte-Carlo
Monte Carlo hoạt động hơi khác. Bạn chọn ngẫu nhiên (không thay thế) một số phần dữ liệu của bạn để tạo thành tập huấn luyện, sau đó gán phần còn lại của các điểm cho tập kiểm tra. Quá trình này sau đó được lặp lại nhiều lần, tạo ra (ngẫu nhiên) các phân vùng thử nghiệm và đào tạo mới mỗi lần. Ví dụ: giả sử bạn chọn sử dụng 10% dữ liệu của mình làm dữ liệu thử nghiệm. Sau đó, bài kiểm tra của bạn trên đại diện số 1 có thể là các điểm 64, 90 , 63, 42 , 65, 49, 10, 64, 96 và 48. Trong lần chạy tiếp theo, bộ kiểm tra của bạn có thể là 90 , 60, 23, 67, 16, 78, 42 , 17, 73 và 26. Vì các phân vùng được thực hiện độc lập cho mỗi lần chạy, nên cùng một điểm có thể xuất hiện trong tập kiểm tra nhiều lần,đó là sự khác biệt chính giữa Monte Carlo và xác nhận chéo .
So sánh
Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Theo xác nhận chéo, mỗi điểm được kiểm tra chính xác một lần, điều này có vẻ công bằng. Tuy nhiên, xác thực chéo chỉ khám phá một vài cách có thể mà dữ liệu của bạn có thể được phân vùng. Monte Carlo cho phép bạn khám phá một số phân vùng có thể hơn, mặc dù bạn không thể có được tất cả chúng - có cách có thể để chia 50/50 điểm dữ liệu bộ(!).(10050)≈1028
Nếu bạn đang cố gắng thực hiện suy luận (nghĩa là so sánh thống kê hai thuật toán), việc tính trung bình các kết quả của lần chạy xác thực chéo sẽ giúp bạn ước tính (gần như) không thiên vị về hiệu suất của thuật toán, nhưng với độ sai lệch cao (như bạn mong đợi chỉ có 5 hoặc 10 điểm dữ liệu). Vì về nguyên tắc, bạn có thể chạy nó miễn là bạn muốn / có thể đủ khả năng, xác thực chéo Monte Carlo có thể cung cấp cho bạn một ước tính ít biến đổi hơn, nhưng sai lệch hơn.k
Một số cách tiếp cận hợp nhất cả hai, như trong xác nhận chéo 5x2 (xem Dietterich (1998) cho ý tưởng, mặc dù tôi nghĩ rằng đã có một số cải tiến hơn nữa kể từ đó), hoặc bằng cách sửa lỗi cho sai lệch (ví dụ: Nadeau và Bengio, 2003 ) .