Hãy xem xét một mô hình rất đơn giản: , với hình phạt L1 trên và hàm mất bình phương nhỏ nhất trên . Chúng ta có thể mở rộng biểu thức để được thu nhỏ như:y=βx+eββ^ee^
minyTy−2yTxβ^+β^xTxβ^+2λ|β^|
Giả sử giải pháp bình phương nhỏ nhất là một số , tương đương với giả định rằng và xem điều gì xảy ra khi chúng ta thêm hình phạt L1. Với , , vì vậy thời hạn phạt bằng . Đạo hàm của hàm mục tiêu wrt là:β^>0yTx>0β^>0|β^|=β^2λββ^
−2yTx+2xTxβ^+2λ
trong đó rõ ràng có giải pháp . β^=(yTx−λ)/(xTx)
Rõ ràng bằng cách tăng chúng ta có thể lái về 0 (tại ). Tuy nhiên, một khi , tăng sẽ không khiến nó âm tính, bởi vì, viết lỏng lẻo, tức thời trở thành âm, đạo hàm của hàm mục tiêu thay đổi thành:λβ^λ=yTxβ^=0λβ^
−2yTx+2xTxβ^−2λ
trong đó việc lật dấu hiệu của là do tính chất giá trị tuyệt đối của thời hạn phạt; khi trở nên âm tính, thời hạn phạt sẽ bằng và lấy kết quả wrt phái sinh trong . Điều này dẫn đến giải pháp , rõ ràng không phù hợp với (cho rằng giải pháp bình phương nhỏ nhất , trong đó ngụ ý vàλβ−2λββ−2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Có sự gia tăng hình phạt L1 VÀ tăng thời hạn lỗi bình phương (vì chúng tôi đang di chuyển xa hơn từ giải pháp bình phương nhỏ nhất) khi di chuyển từ đến , vì vậy chúng tôi không dính tại .β^0<0β^=0
Cần phải rõ ràng bằng trực giác cùng một logic được áp dụng, với các thay đổi dấu thích hợp, cho một giải pháp bình phương tối thiểu với . β^<0
Tuy nhiên, với hình phạt bình phương nhỏ nhất , đạo hàm trở thành:λβ^2
−2yTx+2xTxβ^+2λβ^
trong đó rõ ràng có giải pháp . Rõ ràng là không tăng sẽ đẩy điều này về không. Vì vậy, hình phạt L2 không thể hoạt động như một công cụ lựa chọn biến mà không có một số yếu tố quảng cáo nhẹ như "đặt ước tính tham số bằng 0 nếu nó nhỏ hơn ". β^=yTx/(xTx+λ)λϵ
Rõ ràng mọi thứ có thể thay đổi khi bạn chuyển sang các mô hình đa biến, ví dụ, di chuyển một ước tính tham số xung quanh có thể buộc một số khác thay đổi dấu, nhưng nguyên tắc chung là như nhau: hàm hình phạt L2 không thể đưa bạn về 0, bởi vì, viết rất heuristur, nó có hiệu lực thêm vào "mẫu số" của biểu thức cho , nhưng hàm hình phạt L1 có thể, bởi vì nó có hiệu lực thêm vào "tử số". β^