Câu hỏi chính của tôi là liên quan đến việc cố gắng hiểu làm thế nào xác thực chéo k phù hợp trong bối cảnh có các bộ đào tạo / xác nhận / kiểm tra (nếu nó phù hợp với tất cả trong bối cảnh như vậy).
Thông thường, mọi người nói về việc chia dữ liệu thành tập huấn luyện, xác nhận và kiểm tra - nói theo tỷ lệ 60/20/20 mỗi khóa của Andrew Ng - theo đó, bộ xác thực được sử dụng để xác định các tham số tối ưu cho đào tạo mô hình.
Tuy nhiên, nếu một người muốn sử dụng xác thực chéo k-gấp với hy vọng có được số đo chính xác đại diện hơn khi lượng dữ liệu tương đối nhỏ, thì việc xác thực chéo k-gấp đòi hỏi chính xác trong phân chia 60/20/20 này kịch bản?
Chẳng hạn, điều đó có nghĩa là chúng ta thực sự kết hợp các bộ huấn luyện và thử nghiệm (80% dữ liệu) và xác thực chéo k-trên chúng để có được thước đo chính xác của chúng ta (loại bỏ hiệu quả với 'bộ thử nghiệm' rõ ràng? Nếu vậy, mô hình được đào tạo nào chúng ta sử dụng a) trong sản xuất và b) để sử dụng chống lại bộ xác nhận và xác định các tham số đào tạo tối ưu? Chẳng hạn, một câu trả lời khả dĩ cho a và b có lẽ là sử dụng mô hình gấp tốt nhất.