Tôi tin rằng khi hỏi về việc phù hợp quá mức, người phỏng vấn đang tìm kiếm "câu trả lời trong sách giáo khoa" trong khi bạn đã đi vài bước sau đó.
Một triệu chứng của sự phù hợp quá mức là hiệu suất phân loại trên tập tàu tốt hơn so với hiệu suất trên bộ kiểm tra. Tôi gọi câu trả lời này là "câu trả lời trong sách giáo khoa" vì đây là câu trả lời chung và gần đúng hợp lý.
Lưu ý rằng câu trả lời này có nhiều kết thúc mở. Ví dụ, bao nhiêu sự khác biệt là quá mức? . Ngoài ra, sự khác biệt về hiệu suất giữa các bộ dữ liệu không nhất thiết là do quá mức. Mặt khác, quá mức, sẽ không nhất thiết dẫn đến sự khác biệt đáng kể về hiệu suất trên hai bộ dữ liệu.
Xác thực chéo là một kỹ thuật để đánh giá hiệu suất của người học (ví dụ: cây quyết định) trên dữ liệu mà nó không thấy trước đây. Tuy nhiên, quá mức đề cập đến một mô hình cụ thể (ví dụ: nếu "F1" thì không phải là "f2" dự đoán True). Nó sẽ cho bạn thấy xu hướng của người học là quá phù hợp với dữ liệu này nhưng sẽ không trả lời liệu mô hình cụ thể của bạn có bị quá mức hay không.
Để trang bị quá mức, mô hình sẽ cần sự phức tạp và đó là sự trợ giúp thường xuyên. Nó giới hạn (hoặc giao dịch tắt) sự phức tạp của mô hình. Lưu ý rằng một nguồn quá mức khác là kích thước tập hợp giả thuyết (có thể được coi là số lượng mô hình có thể). Quyết định trước để sử dụng một bộ giả thuyết bị hạn chế là một cách khác để tránh tình trạng thừa.