Chọn phạm vi và mật độ lưới cho tham số chính quy trong LASSO


11

Tôi đang nghiên cứu LASSO (toán tử co ngót và lựa chọn tối thiểu tuyệt đối) vào lúc này. Tôi thấy rằng giá trị tối ưu cho tham số chính quy có thể được chọn bằng xác nhận chéo. Tôi cũng thấy trong hồi quy sườn và nhiều phương pháp áp dụng chính quy, chúng ta có thể sử dụng CV để tìm tham số chính quy tối ưu (nói phạt). Bây giờ câu hỏi của tôi là về các giá trị ban đầu cho giới hạn trên và dưới của tham số và cách xác định độ dài của chuỗi.

Để cụ thể, giả sử chúng tôi có vấn đề LASSO và chúng tôi muốn tìm giá trị tối ưu cho hình phạt, . Vậy thì làm thế nào chúng ta có thể chọn giới hạn dưới và trên cho ? và có bao nhiêu phân chia ở giữa hai giá trị này ? λ

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λ( b - a )λ[a=?,b=?](ba)k=?

Câu hỏi liên quan ở đây .
Richard Hardy

Câu trả lời:


11

Phương pháp này được mô tả trong bài viết Đường dẫn chính quy của giấy glmnet cho các mô hình tuyến tính tổng quát thông qua việc điều phối gốc . Mặc dù phương pháp ở đây là dành cho trường hợp chung của cả chuẩn hóa và , nhưng nó nên áp dụng cho LASSO (chỉ L 1L 2L1L2L1 ).

Giải pháp tối đa λ được đưa ra trong phần 2.5.

Khi , chúng ta thấy từ (5) mà ~ β j sẽ ở lại không nếuβ~=0β~j1N|xj,y|<λαNαλmax=maxl|xl,y|

Đó là, chúng tôi quan sát rằng quy tắc cập nhật cho beta buộc tất cả các ước tính tham số về 0 cho λ>λmax như được xác định ở trên.

Việc xác định và số điểm lưới có vẻ ít nguyên tắc hơn. Trong glmnet, họ đặt λ m i n = 0,001 * λ m một x 100λminλmin=0.001λmax , sau đó chọn một lưới gồm điểm cách đều nhau trên thang logarit.100

Điều này hoạt động tốt trong thực tế, trong việc sử dụng rộng rãi glmnet của tôi, tôi chưa bao giờ thấy lưới này quá thô.

Trong LASSO ( ) chỉ có trường hợp mọi thứ hoạt động tốt hơn, vì phương pháp LARS cung cấp một phép tính chính xác khi các yếu tố dự đoán khác nhau xâm nhập vào mô hình. Một LARS thực sự không thực hiện tìm kiếm dạng lưới trên λL1λ , thay vào đó tạo ra một biểu thức chính xác cho các đường dẫn giải pháp cho các hệ số. Dưới đây là một cái nhìn chi tiết về tính toán chính xác của các đường dẫn hệ số trong trường hợp hai yếu tố dự đoán.

Trường hợp cho các mô hình phi tuyến tính (tức là logistic, poisson) là khó khăn hơn. Ở mức cao, đầu tiên, một xấp xỉ bậc hai cho hàm mất được lấy tại các tham số ban đầu , và sau đó phép tính ở trên được sử dụng để xác định . Không thể tính toán chính xác các đường dẫn tham số trong các trường hợp này, ngay cả khi chỉλ m a x L 1β=0λmaxL1 cung cấp chính quy , do đó tìm kiếm dạng lưới là tùy chọn duy nhất.

Trọng lượng mẫu cũng làm phức tạp tình hình, các sản phẩm bên trong phải được thay thế ở những nơi thích hợp với các sản phẩm bên trong có trọng lượng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.