Một cách không chính thức, khi một mô hình có phương sai quá cao, nó có thể phù hợp "quá tốt" với dữ liệu. Điều đó có nghĩa là, đối với các dữ liệu khác nhau, các tham số của mô hình được tìm thấy bởi thuật toán học tập sẽ khác nhau hoặc nói cách khác sẽ có sự chênh lệch cao trong các tham số đã học, tùy thuộc vào tập huấn luyện.
Bạn có thể nghĩ về nó theo cách đó: dữ liệu được lấy mẫu từ một số phân phối xác suất trong thế giới thực và mô hình học các tham số tùy thuộc vào dữ liệu được lấy mẫu. Do đó, có một số phân phối xác suất có điều kiện trên các tham số đã học của mô hình đã cho. Phân phối này có một số phương sai, đôi khi đến cao. Nhưng khi bạn lấy trung bình mô hình với các bộ thông số khác nhau được học cho các tập huấn luyện khác nhau, thì có vẻ như bạn đã lấy mẫu từ phân phối xác suất có điều kiện này lần. Trung bình của mẫu tạo thành một PD luôn có phương sai nhỏ hơn so với chỉ một mẫu từ cùng một phân phối. Đối với trực giác, hãy nhìn vào Gaussian PD, với 0 trung bình và một mẫu có chính xácN N σ = 1 0 1 N 0 1NNNσ=10giá trị trung bình và phương sai . Nhưng nếu bạn lấy mẫu lần và tính trung bình các kết quả, giá trị trung bình của kết quả của hoạt động sẽ vẫn là , nhưng phương sai sẽ là .1N01N
Cũng xin lưu ý rằng đây chỉ là trực giác rất không chính thức và tốt nhất là bạn nên đọc về sự thiên vị / phương sai từ một số nguồn đáng tin cậy tốt. Tôi đề xuất các yếu tố của học thống kê II:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Bạn có thể tải xuống sách miễn phí và có cả một chương về phân tách sai lệch / sai lệch.