Chắc chắn có thể phù hợp với các mô hình tốt khi có nhiều biến hơn điểm dữ liệu, nhưng điều này phải được thực hiện cẩn thận.
Khi có nhiều biến hơn điểm dữ liệu, vấn đề có thể không có giải pháp duy nhất trừ khi nó bị hạn chế thêm. Đó là, có thể có nhiều giải pháp (có thể là vô hạn) phù hợp với dữ liệu tốt như nhau. Một vấn đề như vậy được gọi là "không đúng mực" hoặc "không xác định". Ví dụ, khi có nhiều biến hơn điểm dữ liệu, hồi quy bình phương tối thiểu tiêu chuẩn có vô số giải pháp đạt được sai số 0 trên dữ liệu huấn luyện.
Một mô hình như vậy chắc chắn sẽ phù hợp vì nó 'quá linh hoạt' đối với lượng dữ liệu đào tạo. Khi tính linh hoạt của mô hình tăng (ví dụ: nhiều biến hơn trong mô hình hồi quy) và lượng dữ liệu đào tạo bị thu hẹp, ngày càng có nhiều khả năng mô hình sẽ có thể đạt được một lỗi thấp bằng cách điều chỉnh các dao động ngẫu nhiên trong dữ liệu đào tạo không đại diện cho đúng, phân phối cơ bản. Hiệu suất do đó sẽ kém khi mô hình được chạy trên dữ liệu trong tương lai được rút ra từ cùng một phân phối.
ℓ1ℓ2
Các ràng buộc có thể mang lại một giải pháp duy nhất, đó là mong muốn khi chúng ta muốn diễn giải mô hình để tìm hiểu điều gì đó về quá trình tạo ra dữ liệu. Họ cũng có thể mang lại hiệu suất dự đoán tốt hơn bằng cách hạn chế tính linh hoạt của mô hình, do đó làm giảm xu hướng phù hợp.
Tuy nhiên, chỉ đơn giản là áp đặt các ràng buộc hoặc đảm bảo rằng một giải pháp duy nhất tồn tại không có nghĩa là giải pháp kết quả sẽ tốt. Các ràng buộc sẽ chỉ tạo ra các giải pháp tốt khi chúng thực sự phù hợp với vấn đề.
Một vài điểm linh tinh:
- Sự tồn tại của nhiều giải pháp không nhất thiết là vấn đề. Ví dụ, mạng lưới thần kinh có thể có nhiều giải pháp khả thi khác biệt với nhau nhưng gần tốt như nhau.
- Sự tồn tại của nhiều biến hơn điểm dữ liệu, sự tồn tại của nhiều giải pháp và quá mức thường trùng khớp. Nhưng, đây là những khái niệm riêng biệt; mỗi cái có thể xảy ra mà không có cái khác