Tôi sẽ cố gắng trả lời theo cách đơn giản nhất. Mỗi vấn đề có nguồn gốc chính của nó:
Quá mức: Dữ liệu ồn ào, có nghĩa là có một số sai lệch so với thực tế (do lỗi đo lường, các yếu tố ngẫu nhiên có ảnh hưởng, các biến không quan sát được và tương quan rác) khiến chúng ta khó thấy mối quan hệ thực sự của chúng với các yếu tố giải thích. Ngoài ra, nó thường không hoàn thành (chúng tôi không có ví dụ về mọi thứ).
Ví dụ, giả sử tôi đang cố gắng phân loại con trai và con gái dựa trên chiều cao của họ, chỉ vì đó là thông tin duy nhất tôi có về họ. Chúng ta đều biết rằng mặc dù con trai cao hơn trung bình so với con gái, nhưng có một vùng chồng chéo rất lớn, khiến chúng không thể tách chúng ra một cách hoàn hảo chỉ với một chút thông tin. Tùy thuộc vào mật độ của dữ liệu, một mô hình đủ phức tạp có thể có thể đạt được tỷ lệ thành công tốt hơn cho nhiệm vụ này hơn là về mặt lý thuyết có thể được đào tạobộ dữ liệu bởi vì nó có thể vẽ các ranh giới cho phép một số điểm tự đứng một mình. Vì vậy, nếu chúng ta chỉ có một người cao 2,04 mét và là phụ nữ, thì người mẫu có thể vẽ một vòng tròn nhỏ xung quanh khu vực đó có nghĩa là một người ngẫu nhiên cao 2,04 mét rất có thể là phụ nữ.
Lý do cơ bản cho tất cả là tin tưởng quá nhiều vào dữ liệu đào tạo (và trong ví dụ, mô hình nói rằng vì không có người đàn ông nào có chiều cao 2.04, nên chỉ có thể đối với phụ nữ).
Underfising là vấn đề ngược lại, trong đó mô hình không nhận ra sự phức tạp thực sự trong dữ liệu của chúng tôi (tức là những thay đổi không ngẫu nhiên trong dữ liệu của chúng tôi). Mô hình giả định rằng tiếng ồn lớn hơn thực tế và do đó sử dụng hình dạng quá đơn giản. Vì vậy, nếu bộ dữ liệu có nhiều bé gái hơn con trai vì bất kỳ lý do gì, thì người mẫu có thể phân loại tất cả chúng giống như con gái.
Trong trường hợp này, mô hình không đủ tin tưởng vào dữ liệu và nó chỉ cho rằng độ lệch là tất cả nhiễu (và trong ví dụ, mô hình giả định rằng các chàng trai đơn giản là không tồn tại).
Điểm mấu chốt là chúng ta phải đối mặt với những vấn đề này bởi vì:
- Chúng tôi không có thông tin đầy đủ.
- Chúng tôi không biết dữ liệu ồn ào như thế nào (chúng tôi không biết chúng tôi nên tin tưởng bao nhiêu).
- Chúng tôi không biết trước chức năng cơ bản đã tạo ra dữ liệu của mình và do đó độ phức tạp của mô hình tối ưu.