Trực giác về mức độ tự do của LASSO


12

Zou và cộng sự. "Về" mức độ tự do "của Lasso" (2007) cho thấy số lượng các hệ số khác không là một ước tính không thiên vị và nhất quán cho mức độ tự do của Lasso.

Nó có vẻ hơi trái ngược với tôi.

  • Giả sử chúng ta có một mô hình hồi quy (trong đó các biến là trung bình bằng 0)

y=βx+ε.
  • Giả sử ước tính OLS không giới hạn của là . Nó gần như có thể trùng với ước tính LASSO của cho cường độ hình phạt rất thấp.ββ^OLS=0.5β
  • Giả sử thêm rằng ước tính LASSO cho cường độ hình phạt cụ thể là . Ví dụ: có thể là "tối ưu" cho tập dữ liệu có sẵn bằng cách sử dụng xác thực chéo. λβ^LASSO,λ=0.4λλ
  • Nếu tôi hiểu chính xác, trong cả hai trường hợp, bậc tự do là 1 vì cả hai lần đều có một hệ số hồi quy khác không.

Câu hỏi:

  • Làm thế nào mà mức độ tự do trong cả hai trường hợp đều giống nhau mặc dù cho thấy ít "tự do" hơn trong việc phù hợp hơn ?β^LASSO,λ=0.4β^OLS=0.5

Người giới thiệu:


1
câu hỏi tuyệt vời, điều đó sẽ xứng đáng được chú ý nhiều hơn!
Matifou

Câu trả lời:


8

n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Bằng cách kiểm tra công thức này, chúng tôi có thể phỏng đoán rằng, theo trực giác của bạn, DOF thực sự cho LASSO thực sự sẽ ít hơn DOF thực sự của OLS; hệ số co ngót do LASSO tác động sẽ có xu hướng làm giảm hiệp phương sai.

Bây giờ, để trả lời câu hỏi của bạn, lý do DOF cho LASSO giống như DOF cho OLS trong ví dụ của bạn chỉ là bạn đang xử lý các ước tính (mặc dù không thiên vị), được lấy từ một tập dữ liệu cụ thể được lấy mẫu từ mô hình , của các giá trị DOF thực sự. Đối với bất kỳ tập dữ liệu cụ thể nào, ước tính như vậy sẽ không bằng giá trị thực (đặc biệt vì ước tính được yêu cầu là số nguyên trong khi giá trị thực là số thực nói chung).

λ


1
β^LASSO=0<1=1

Nhân tiện, tại sao ước tính mức độ tự do cần phải là số nguyên? Có phải vậy không? Tôi cũng nhận xét rằng ký hiệu sản phẩm bên trong có vẻ phức tạp không cần thiết và hiếm khi được sử dụng trên trang web này; ký hiệu ma trận sẽ đủ. Nhưng đó là sự lựa chọn của bạn, tất nhiên.
Richard Hardy

1
Vâng, về khoản tiền của nó lên. Ước tính mức độ tự do phải là một số nguyên cho LASSO (ít nhất là cho một tập dữ liệu duy nhất) chỉ vì ước tính là số lượng các hệ số khác không.
e2crawfo

1
Tuyên bố Ước tính mức độ tự do phải là một số nguyên cho LASSO chỉ vì ước tính là số lượng các hệ số khác không có vẻ rất cao đối với tôi. Nói chung, tôi không nghĩ rằng df cần phải là số nguyên, từ chính định nghĩa của df bạn đã viết. Tương tự, trong trường hợp sườn núi, nó không bằng không.
Matifou
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.