Bạn thực sự đã mô tả chính xác cách làm việc với crossvalidation. Trên thực tế, bạn 'may mắn' có một bộ xác nhận hợp lý ở cuối, bởi vì thông thường, việc xác định giá trị chéo được sử dụng để tối ưu hóa một mô hình, nhưng không có xác thực "thực" nào được thực hiện.
Như @Simon Stelling đã nói trong nhận xét của mình, việc xác định giá trị chéo sẽ dẫn đến các lỗi ước tính thấp hơn (điều này hợp lý vì bạn liên tục sử dụng lại dữ liệu), nhưng may mắn thay, đây là trường hợp của tất cả các mô hình, vì vậy, việc loại bỏ thảm họa (nghĩa là: lỗi chỉ giảm một chút cho một mô hình "xấu" và nhiều hơn cho mô hình "tốt"), chọn mô hình hoạt động tốt nhất theo tiêu chí đánh giá chéo, thường cũng sẽ là "thực tế" tốt nhất.
Một phương pháp đôi khi được sử dụng để sửa phần nào cho các lỗi thấp hơn, đặc biệt là nếu bạn đang tìm kiếm các mô hình phân tách, là chọn mô hình nhỏ nhất / phương pháp đơn giản nhất mà trong đó một lỗi chéo nằm trong một SD từ tối ưu (chéo hóa). Như chính giá trị chéo, đây là một heuristic, vì vậy nó nên được sử dụng cẩn thận (nếu đây là một tùy chọn: tạo một biểu đồ lỗi của bạn theo các tham số điều chỉnh của bạn: điều này sẽ cho bạn biết liệu bạn có kết quả chấp nhận được không)
Do sự sai lệch đi xuống của các lỗi, điều quan trọng là không xuất bản các lỗi hoặc thước đo hiệu suất khác từ việc xác định giá trị chéo mà không đề cập đến những lỗi này xuất phát từ việc xác định giá trị chéo (mặc dù, sự thật được nói: Tôi đã thấy quá nhiều ấn phẩm không đề cập đến đo lường hiệu suất được lấy từ việc kiểm tra hiệu suất trên tập dữ liệu gốc --- vì vậy, việc đề cập đến giá trị chéo thực sự làm cho kết quả của bạn có giá trị hơn ). Đối với bạn, điều này sẽ không thành vấn đề, vì bạn có một bộ xác nhận.
Một cảnh báo cuối cùng: nếu mô hình phù hợp của bạn dẫn đến một số đối thủ cạnh tranh, bạn nên xem hiệu suất của họ trên bộ xác thực của bạn sau đó, nhưng không dựa trên lựa chọn mô hình cuối cùng của bạn về điều đó: tốt nhất bạn có thể sử dụng điều này để làm dịu lương tâm, nhưng mô hình "cuối cùng" của bạn phải được chọn trước khi bạn nhìn vào bộ xác nhận.
Viết câu hỏi thứ hai của bạn: Tôi tin rằng Simon đã đưa ra tất cả các câu trả lời bạn cần trong bình luận của anh ấy, nhưng để hoàn thành bức tranh: như thường lệ, đó là sự đánh đổi sai lệch thiên vị xuất hiện. Nếu bạn biết rằng, trung bình, bạn sẽ đạt được kết quả chính xác (không thiên vị), giá thường là mỗi phép tính riêng lẻ của bạn có thể nằm khá xa nó (phương sai cao). Vào thời xưa, tính không thiên vị là cực kỳ cộng, trong thời hiện tại, người ta đã chấp nhận những lúc thiên vị (nhỏ) (vì vậy bạn thậm chí không biết rằng trung bình các tính toán của bạn sẽ cho kết quả chính xác), nếu nó kết quả trong phương sai thấp hơn. Kinh nghiệm đã chỉ ra rằng sự cân bằng có thể chấp nhận được với phép định giá chéo 10 lần. Đối với bạn, sự thiên vị sẽ chỉ là một vấn đề đối với tối ưu hóa mô hình của bạn, vì bạn có thể ước tính tiêu chí sau đó (không thiên vị) trên tập xác thực. Như vậy, có rất ít lý do để không sử dụng crossvalidation.