Nó thực sự phụ thuộc vào lượng dữ liệu bạn có, chi phí cụ thể của phương pháp và mức độ chính xác mà bạn muốn kết quả của bạn đạt được.
Vài ví dụ:
Nếu bạn có ít dữ liệu, có lẽ bạn muốn sử dụng xác thực chéo (k-Fold, bỏ qua một lần, v.v.) Mô hình của bạn có thể sẽ không mất nhiều tài nguyên để đào tạo và kiểm tra. Đó là cách tốt để tận dụng tối đa dữ liệu của bạn
Bạn có rất nhiều dữ liệu: bạn có thể muốn thực hiện một bộ thử nghiệm lớn một cách hợp lý, đảm bảo rằng sẽ có rất ít khả năng một số mẫu lạ sẽ mang lại nhiều thay đổi cho kết quả của bạn. Bạn nên lấy bao nhiêu dữ liệu? Nó phụ thuộc hoàn toàn vào dữ liệu và mô hình của bạn. Ví dụ, trong nhận dạng giọng nói, nếu bạn lấy quá nhiều dữ liệu (giả sử 3000 câu), các thử nghiệm của bạn sẽ mất nhiều ngày, vì hệ số thời gian thực là 7-10 là phổ biến. Nếu bạn mất quá ít, nó phụ thuộc quá nhiều vào loa mà bạn đang chọn (không được phép trong tập huấn luyện).
Ngoài ra, hãy nhớ rằng, trong rất nhiều trường hợp cũng tốt để có một bộ xác nhận / phát triển!