Nói chung, nếu chúng ta có một tập dữ liệu lớn, chúng ta có thể chia nó thành (1) đào tạo, (2) xác nhận và (3) kiểm tra. Chúng tôi sử dụng xác nhận để xác định các siêu âm tốt nhất trong xác thực chéo (ví dụ: C trong SVM) và sau đó chúng tôi đào tạo mô hình bằng cách sử dụng siêu âm tốt nhất với tập huấn luyện và áp dụng mô hình được đào tạo vào thử nghiệm để có được hiệu suất.
Nếu chúng tôi có một tập dữ liệu nhỏ, chúng tôi không thể tạo tập huấn luyện và kiểm tra (không đủ mẫu). Do đó, chúng tôi sẽ thực hiện xác nhận chéo (k-Fold, bỏ qua một lần, v.v.) để đánh giá hiệu suất mô hình.
Tôi đã thấy xác nhận chéo lồng nhau (cho dù lặp đi lặp lại hoặc phân tầng) đã được sử dụng trong cài đặt tập dữ liệu nhỏ, nghĩa là để tạo hiệu suất mô hình tổng quát trong khi tối ưu hóa lựa chọn tham số. Câu hỏi của tôi là, làm thế nào tôi có thể có được siêu âm tốt nhất trong xác nhận chéo lồng nhau (lặp lại / không lặp lại)? Tôi thích làm điều này trong scikit-learn, nếu có thể. Tôi hơi bối rối về cách làm điều đó.
Tôi đã đọc một số tài nguyên nhưng không có tài liệu nào cho tôi câu trả lời dứt khoát cho câu hỏi này:
Xác thực chéo lồng nhau để lựa chọn mô hình
Xác thực chéo và lựa chọn tính năng lồng nhau: khi nào thực hiện lựa chọn tính năng?