Xác thực chéo là một công cụ để ước tính phương sai của chỉ số hiệu suất của bạn do tính ngẫu nhiên trong dữ liệu (và có thể trong thuật toán học nếu nó không mang tính quyết định).
Vì vậy, nếu bạn chỉ sử dụng một lần phân tách, ví dụ 80% đào tạo + 20% kiểm tra và báo cáo số liệu hiệu suất của bạn từ thử nghiệm duy nhất này, có nhiều khả năng bất cứ ai cố gắng tái tạo thử nghiệm của bạn bằng các tham số chính xác sẽ tìm thấy một con số hiệu suất khác nhau (đôi khi rất khác nhau). Tất nhiên trừ khi bạn cung cấp sự phân chia chính xác như vậy là vô nghĩa.
Để trở lại câu hỏi của bạn, tôi nghĩ bạn chắc chắn nên sử dụng CV để báo cáo hiệu suất của mình (ví dụ: thực hiện CV gấp 10 lần và báo cáo độ lệch trung bình và độ lệch chuẩn của chỉ số hiệu suất). Bây giờ để điều chỉnh thuật toán của bạn, bạn có thể sử dụng một bộ xác nhận nhỏ hơn nhiều được lấy mẫu từ tập huấn luyện (đảm bảo rằng nó không được bao gồm trong tập kiểm tra).
Nếu bạn sợ rằng bạn sẽ không tìm thấy các siêu đường kính tốt nhất bằng cách sử dụng một bộ nhỏ thì có lẽ bạn đã quá mức thuật toán của bạn với các chi tiết cụ thể của bộ dữ liệu. Nếu bạn không thể tìm thấy một cấu hình bằng cách sử dụng một mẫu nhỏ mang lại hiệu năng hợp lý trong tất cả các nếp gấp thì thuật toán có thể không hữu ích trong thực tế.
Ngoài ra, hãy nhớ rằng một số thuật toán đơn giản là quá chậm / không mở rộng tốt trong một số cấu hình. Đây cũng là một phần của lựa chọn mô hình thực tế.
Vì bạn đề cập đến các SVM, tất nhiên hầu hết các triển khai sẽ chậm khi cố gắng tìm các tham số cho các hạt nhân phi tuyến tính bằng cách tìm kiếm lưới. Tìm kiếm lưới có độ phức tạp theo cấp số nhân, vì vậy hãy sử dụng nó với rất ít tham số. Ngoài ra, hãy nhớ rằng hầu hết các thư viện cung cấp các tham số mặc định hợp lý (hoặc ít nhất là bạn đặt một tham số và có các heuristic để đặt các tham số khác).