Tôi cho rằng bạn đã hiểu tại sao hiệu suất trên tập huấn luyện không đại diện cho hiệu suất thực tế của mô hình được đào tạo: quá mức. Các thông số bạn học được trong quá trình đào tạo được tối ưu hóa cho tập huấn luyện. Nếu bạn không cẩn thận, bạn có thể tối ưu hóa quá mức các tham số, dẫn đến một mô hình thực sự, thực sự tốt trên tập huấn luyện, nhưng không khái quát hóa để hoàn toàn không nhìn thấy dữ liệu trong thế giới thực.
Vấn đề là, trong thực tế, "tham số" của phương pháp đào tạo không phải là điều duy nhất bạn cần chỉ định cho một ví dụ học tập. Bạn cũng có siêu âm. Bây giờ, các siêu đường kính đó có thể là một phần rõ ràng của sự phù hợp mô hình (như tốc độ học tập), nhưng bạn cũng có thể xem các lựa chọn khác là "siêu đường kính": bạn chọn một SVM hoặc mạng thần kinh? Nếu bạn thực hiện dừng sớm, tại điểm nào bạn dừng lại?
Cũng giống như việc quá mức các tham số trên tập huấn luyện, bạn có thể điều chỉnh quá mức các siêu đường kính cho tập xác thực . Ngay sau khi bạn sử dụng kết quả của phương thức trên bộ xác thực để thông báo cho cách bạn thực hiện mô hình hóa, giờ đây bạn có cơ hội vượt quá mức kết hợp với tập hợp xác thực + tập xác thực. Có lẽ bộ xác nhận cụ thể này làm tốt hơn với một SVM so với trường hợp chung.
Đó là lý do chính khiến mọi người tách ra các bộ kiểm tra và xác nhận. Nếu bạn sử dụng một bộ trong quá trình điều chỉnh mô hình của mình - ngay cả ở mức "hmm, phương pháp đó không hoạt động tốt lắm, có lẽ tôi nên thử ..." - kết quả bạn nhận được trên bộ đó sẽ không thể hiện đầy đủ về tổng quát kết quả bạn sẽ có được trên dữ liệu hoàn toàn mới. Đó là lý do tại sao bạn giữ ra một phần nhỏ của dữ liệu đến rất kết thúc, quá khứ điểm mà bạn đang thực hiện bất kỳ quyết định phải làm gì.