Nói một cách đơn giản, có ba nguồn lỗi dự đoán khác nhau:
- sự thiên vị của mô hình của bạn
- phương sai của mô hình của bạn
- phương sai không thể giải thích
Chúng tôi không thể làm bất cứ điều gì về điểm 3 (ngoại trừ việc cố gắng ước tính phương sai không giải thích được và kết hợp nó trong mật độ dự đoán và khoảng dự đoán của chúng tôi). Điều này để lại cho chúng tôi 1 và 2.
Nếu bạn thực sự có mô hình "đúng", thì, giả sử, ước tính tham số OLS sẽ không thiên vị và có phương sai tối thiểu trong số tất cả các ước lượng không thiên vị (tuyến tính) (chúng là BLUE). Dự đoán từ mô hình OLS sẽ là dự đoán không thiên vị tuyến tính tốt nhất (BLUP). Điều đó nghe có vẻ tốt.
Tuy nhiên, hóa ra là mặc dù chúng ta có các dự đoán không thiên vị và phương sai tối thiểu trong số tất cả các dự đoán không thiên vị, phương sai vẫn có thể khá lớn. Quan trọng hơn, đôi khi chúng ta có thể đưa ra sai lệch "một chút" và đồng thời tiết kiệm "rất nhiều" phương sai - và bằng cách đánh đổi vừa phải, chúng ta có thể nhận được lỗi dự đoán thấp hơn với mô hình sai lệch (phương sai thấp hơn) so với không thiên vị ( phương sai cao hơn) một. Đây được gọi là "sự đánh đổi sai lệch thiên vị", và câu hỏi này và câu trả lời của nó đang được khai sáng: Khi nào thì một công cụ ước tính thiên vị thích hợp hơn không thiên vị?
Và chính quy hóa như lasso, hồi quy sườn, lưới đàn hồi và vv làm chính xác điều đó. Họ kéo mô hình về không. (Cách tiếp cận Bayes tương tự - họ kéo mô hình về phía các linh mục.) Vì vậy, các mô hình chính quy sẽ bị sai lệch so với các mô hình không chính quy, nhưng cũng có phương sai thấp hơn. Nếu bạn chọn quyền chính quy của mình, kết quả là dự đoán có lỗi thấp hơn.
Nếu bạn tìm kiếm "chính quy hóa sự đánh đổi sai lệch" hoặc tương tự, bạn sẽ có được một số thực phẩm để suy nghĩ. Bài thuyết trình này, ví dụ, là hữu ích.
EDIT: amip hoàn toàn chỉ ra rằng tôi đang truyền tay nhau về lý do tại sao chính xác hóa mang lại phương sai thấp hơn của các mô hình và dự đoán. Hãy xem xét một mô hình Lasso với tham số chính quy lớn . Nếu , ước tính tham số lasso của bạn sẽ bị thu hẹp về không. Một giá trị tham số cố định bằng 0 có phương sai bằng không. (Điều này không hoàn toàn chính xác, vì giá trị ngưỡng của vượt quá các tham số của bạn sẽ bị thu hẹp về 0 phụ thuộc vào dữ liệu và mô hình của bạn. Nhưng với mô hình và dữ liệu, bạn có thể tìm thấyλλ→∞λλsao cho mô hình là mô hình số không. Luôn luôn giữ các bộ định lượng của bạn thẳng.) Tuy nhiên, mô hình zero tất nhiên cũng sẽ có một thiên vị rất lớn. Rốt cuộc, nó không quan tâm đến những quan sát thực tế.
Và điều tương tự cũng áp dụng cho các giá trị không phải là cực trị của (các) tham số chính quy của bạn: các giá trị nhỏ sẽ mang lại ước tính tham số không đều, sẽ ít sai lệch (không thiên vị nếu bạn có mô hình "chính xác"), nhưng có giá trị cao hơn phương sai. Họ sẽ "nhảy lung tung", theo dõi những quan sát thực tế của bạn. Giá trị cao hơn của chính quy hóa sẽ "hạn chế" ước tính tham số của bạn ngày càng nhiều. Đây là lý do tại sao các phương thức có các tên như "lasso" hoặc "lưới đàn hồi": chúng hạn chế sự tự do của các tham số của bạn để di chuyển xung quanh và theo dõi dữ liệu.λ
(Tôi đang viết một bài báo nhỏ về điều này, hy vọng sẽ dễ truy cập hơn. Tôi sẽ thêm một liên kết một khi nó có sẵn.)