Xác thực chéo K-Fold (CV) ngẫu nhiên chia dữ liệu của bạn thành các phân vùng K và bạn lần lượt giữ một trong những phần K đó làm trường hợp thử nghiệm và gộp các phần K-1 khác lại với nhau làm dữ liệu huấn luyện của bạn. Rời khỏi một lần (LOO) là trường hợp đặc biệt khi bạn lấy các mục dữ liệu N của mình và thực hiện CV N-Fold. Về mặt nào đó, Hold Out là một trường hợp đặc biệt khác, trong đó bạn chỉ chọn một trong các nếp gấp K của mình làm thử nghiệm và không xoay qua tất cả các nếp gấp K.
Theo như tôi biết, CV 10 lần gần như là một vấn đề khó khăn, vì nó sử dụng dữ liệu của bạn một cách hiệu quả và cũng giúp tránh các lựa chọn phân vùng không may mắn. Hold Out không sử dụng hiệu quả dữ liệu của bạn và LOO không mạnh mẽ (hoặc một cái gì đó tương tự), nhưng 10 lần là hoàn toàn đúng.
Nếu bạn biết rằng dữ liệu của bạn chứa nhiều hơn một danh mục và một hoặc nhiều danh mục nhỏ hơn nhiều so với phần còn lại, một số phân vùng ngẫu nhiên K của bạn thậm chí có thể không chứa bất kỳ danh mục nhỏ nào, điều này sẽ rất tệ. Để đảm bảo mỗi phân vùng có tính đại diện hợp lý, bạn sử dụng phân tầng: chia dữ liệu của bạn thành các danh mục và sau đó tạo phân vùng ngẫu nhiên bằng cách chọn ngẫu nhiên và tỷ lệ từ mỗi danh mục.
Tất cả các biến thể trên CV K-Fold chọn từ dữ liệu của bạn mà không cần thay thế. Bootstrap chọn dữ liệu có thay thế, do đó cùng một dữ liệu có thể được bao gồm nhiều lần và một số dữ liệu có thể không được bao gồm trong tất cả. (Mỗi "phân vùng" cũng sẽ có N mục, không giống như K-Fold, trong đó mỗi phân vùng sẽ có các mục N / K.)
(Tuy nhiên, tôi phải thừa nhận rằng tôi không biết chính xác cách bootstrap sẽ được sử dụng trong CV. Nguyên tắc kiểm tra và CV là đảm bảo bạn không kiểm tra dữ liệu mà bạn đã đào tạo, để bạn có được một ý tưởng thực tế hơn về cách kỹ thuật + hệ số của bạn có thể hoạt động trong thế giới thực.)
EDIT: Đã thay thế "Giữ không hiệu quả" bằng "Giữ ngoài không sử dụng hiệu quả dữ liệu của bạn" để giúp làm rõ, theo các nhận xét.