Như bạn có thể nhận ra, chúng tôi chắc chắn không cần hệ số để có hồi quy tuyến tính. Các bộ giảm thiểu tất nhiên sẽ giống hệt nhau, có hoặc không có nó. Một lý do điển hình để bình thường hóa bởi m là để chúng ta có thể xem hàm chi phí là một xấp xỉ với "lỗi tổng quát hóa", đó là tổn thất bình phương dự kiến trên một ví dụ mới được chọn ngẫu nhiên (không phải trong tập huấn luyện):1/mm
Giả sử được lấy mẫu iid từ một số phân phối. Sau đó, đối với m lớn, chúng tôi hy vọng rằng
1(X,Y),(X(1),Y(1)),…,(X(m),Y(m))m
1m∑i=1m(hθ(X(i))−Y(i))2≈E(hθ(X)−Y)2.
Chính xác hơn, bởi Luật mạnh số lượng lớn, chúng tôi có
với xác suất 1.
limm→∞1m∑i=1m(hθ(X(i))−Y(i))2=E(hθ(X)−Y)2
Lưu ý: Mỗi câu trên đều dành cho bất kỳ cụ thể nào , được chọn mà không cần nhìn vào tập huấn luyện. Đối với học máy, chúng tôi muốn các báo cáo này để giữ cho một số θ chọn dựa trên hiệu suất tốt của nó đối với tập huấn luyện. Những tuyên bố vẫn có thể giữ trong trường hợp này, mặc dù chúng ta cần phải thực hiện một số giả định trên tập hợp các hàm { h θθθ^ , và chúng tôi sẽ cần một cái gì đó mạnh hơn so với Luật số lớn. {hθ|θ∈Θ}