Nếu p> n, Lasso chọn tối đa n biến


13

Một trong những động lực cho mạng lưới đàn hồi là giới hạn sau của LASSO:

Trong trường hợp , lasso chọn tối đa n biến trước khi nó bão hòa, vì bản chất của vấn đề tối ưu hóa lồi. Đây dường như là một tính năng giới hạn cho một phương pháp lựa chọn biến. Hơn nữa, Lasso không được xác định rõ trừ khi giới hạn trên chỉ tiêu L1 của các hệ số nhỏ hơn một giá trị nhất định.p>n

( http: // onlinel Library.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Tôi hiểu rằng LASSO là một vấn đề lập trình bậc hai nhưng cũng có thể được giải quyết thông qua LARS hoặc giảm độ dốc phần tử. Nhưng tôi không hiểu ở đâu trong các thuật toán này, tôi gặp phải một vấn đề nếu trong đó là số lượng dự đoán và là kích thước mẫu. Và tại sao vấn đề này được giải quyết bằng cách sử dụng mạng đàn hồi trong đó tôi tăng vấn đề lên các biến vượt quá .p n p + n pp>npnp+np


2
Nếu lasso hạn chế sử dụng để giữ p <= n thì tại sao đó là một nhược điểm chứ không phải là một đức tính. quá mức là một vấn đề nghiêm trọng xảy ra khi p = n. Mô hình với p = n là một mô hình bão hòa và thường là mô hình đó mặc trang phục vì nó sẽ phù hợp với dữ liệu quan sát một cách hoàn hảo nhưng không nhất thiết phải xử lý tốt các trường hợp trong tương lai.
Michael R. Chernick

3
Việc Lasso chỉ chọn tối đa n biến có thể được xem là hệ quả của thực tế là nó có thể được giải quyết bằng cách sử dụng (một sửa đổi nhỏ) thuật toán LARS, chỉ chấp nhận tối đa n biến vào bộ hoạt động bất kỳ lúc nào. Rằng điều này không đúng trong trường hợp lưới đàn hồi về cơ bản xuất phát từ việc kết hợp hình phạt 2 và do đó hoạt động giống như hồi quy sườn, điều này thường dẫn đến tất cả các hệ số là khác không.
Đức hồng y

Cảm ơn bạn đã trả lời và làm thế nào tôi có thể thấy độ dốc giảm dần mà hầu hết n biến có thể được chọn: Trình bày tại cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ ... Giấy (phần 4) tại datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@user: Tôi nghĩ rằng bạn có thể kết hợp vấn đề toán học với giải pháp số của nó. Thuật toán LARS cho thấy giải pháp Lasso sẽ chọn tối đa biến. Điều này độc lập với các phương tiện số thực tế để đi đến giải pháp, nghĩa là thuật toán LARS cung cấp cái nhìn sâu sắc về vấn đề, nhưng tất nhiên bất kỳ phương pháp nào khác giải quyết vấn đề tương đương đều phải có cùng một thuộc tính! :-)n
hồng y

Xem xét một tính năng nhân đôi lần. Sẽ tồn tại một công cụ ước tính Lasso với chính xác p nonzeroes (ngay cả khi p > n ) Do đó, tuyên bố của bạn không đúng như được viết. ppp>n
user795305

Câu trả lời:


10

Như đã nói, đây không phải là một thuộc tính của thuật toán mà là vấn đề tối ưu hóa. Các điều kiện KKT về cơ bản cho rằng hệ số khác không, nó phải tương ứng với một mối tương quan cố định với phần dư | X t j ( y - X β ) | = Λ ( λ là tham số quy tắc).βj|Xjt(yXβ)|=λλ

Sau khi giải quyết các biến chứng khác nhau với giá trị tuyệt đối, v.v., bạn được để lại một phương trình tuyến tính cho mỗi hệ số khác không. Vì thứ hạng của ma trận nhiều nhất là n khi p > n , đây là số phương trình có thể giải được, và do đó có nhiều nhất là n số không (trừ khi có dự phòng).Xnp>n

Nhân tiện, điều này đúng với bất kỳ chức năng mất nào, không chỉ Lasso tiêu chuẩn với mất. Vì vậy, nó trong thực tế là một tài sản của hình phạt Lasso. Có nhiều bài viết cho thấy quan điểm KKT này và kết luận thu được, tôi có thể chỉ ra bài báo của chúng tôi: Rosset và Zhu, Piecewise Tuyến đường giải pháp thường xuyên tuyến tính, Biên niên sử thống kê 2007 và giới thiệu ở đó.L2


KKT có nghĩa là gì? Ngoài ra, có thể bạn có nghĩa là mất L1 khi nói về Lasso tiêu chuẩn?
miura

Xin chào Saharon và chào mừng đến với trang web. Bạn có thể sử dụng LaTeX để làm cho công thức gọn gàng hơn (tôi đã làm như vậy trong câu trả lời của bạn) và bạn không cần phải ký các bài đăng của mình, vì chữ ký được thêm tự động.
Peter Flom - Tái lập Monica

1
@miura: KKT là viết tắt của Karush-Kuhn-Tucker. Các điều kiện KKT là các phương trình nhất định mà các giải pháp cho các vấn đề tối ưu hóa (đủ thường xuyên) phải đáp ứng ( bài viết trên wikipedia ).
mogron

Tôi chỉ thấy rằng Ryan Tibshirani có một bài viết rất phù hợp 'Vấn đề và sự độc đáo của Lasso.': Stat.cmu.edu/~ryantibs/ con / classounique.pdf
user1137731

6

Một cách giải thích khác như sau: nếu , thứ hạng của ma trận dữ liệu X nhiều nhất là n , do đó kích thước của không gian null (phải) của nó ít nhất là p - n . Viết bất kỳ vectơ trong không gian null này là z . Sau đó, tại bất kỳ điểm nào khả thi β , người ta có thể di chuyển trong này p - n không gian rỗng chiều về phía trục tọa độ của p không gian xung quanh chiều, để đi đến một β + z , nơi (ít nhất) n β j s là khác không và hàm mục tiêu LASSOn<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

đã giảm.


(+1) Có một khoảng trống ở đây: xem nhận xét của tôi về bài đăng của OP.
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.