Điều gì khiến lasso không ổn định để lựa chọn tính năng?


12

Trong cảm biến nén, có một định lý đảm bảo rằng có một giải pháp thưa thớt duy nhất c (Xem phụ lục để biết thêm chi tiết).c

argminc1subject to y=Xc
c

Có một định lý tương tự cho Lasso? Nếu có một định lý như vậy, nó không chỉ đảm bảo tính ổn định của Lasso mà còn cung cấp cho Lasso một cách giải thích có ý nghĩa hơn:

Lasso có thể khám phá những thưa thớt hệ số hồi quy vector c được sử dụng để tạo ra các phản ứng y bởi y=Xc .

Có hai lý do mà tôi hỏi câu hỏi này:

  1. Tôi nghĩ rằng 'lasso thích một giải pháp thưa thớt' không phải là câu trả lời cho lý do tại sao sử dụng lasso để lựa chọn tính năng vì chúng ta thậm chí không thể biết lợi thế của các tính năng mà chúng ta chọn là gì.

  2. Tôi đã học lasso nổi tiếng là không ổn định để lựa chọn tính năng. Trong thực tế, chúng ta phải chạy các mẫu bootstrap để đánh giá tính ổn định của nó. Lý do quan trọng nhất gây ra sự bất ổn này là gì?


Ruột thừa:

Cho XN×M=(x1,,xM) . c là một vectơ thưa thớt Ω ( ΩM ). Quá trình y=Xc tạo ra phản hồi y . Nếu X có NSP (thuộc tính không gian rỗng) theo thứ tự Ω và ma trận hiệp phương sai của X không có giá trị riêng gần bằng 0, sẽ có một giải pháp duy nhất cho

argminc1subject to y=Xc
chính xác là c cung cấp cho y .

Định lý này cũng cho biết nếu không có NSP theo thứ tự , thì việc giải quyết .XΩargminc:y=Xcc1


BIÊN TẬP:

Sau khi nhận được những câu trả lời tuyệt vời này, tôi nhận ra rằng tôi đã bối rối khi hỏi câu hỏi này.

Tại sao câu hỏi này khó hiểu:

Tôi đã đọc một bài nghiên cứu trong đó chúng ta phải quyết định có bao nhiêu tính năng (cột) ma trận thiết kế sẽ có (các tính năng phụ được tạo từ các tính năng chính). Vì đây là một vấn đề điển hình , dự kiến ​​sẽ được xây dựng tốt để giải pháp cho Lasso có thể là một xấp xỉ tốt của giải pháp thưa thớt thực sự.XN×Mn<pD

Lý do được đưa ra từ định lý mà tôi đã đề cập trong phần phụ lục: Nếu chúng ta nhắm đến việc tìm một giải pháp cude , tốt hơn là có NSP theo thứ tự .ΩcXΩ

Đối với ma trận , nếu bị vi phạm, thìN×MN>CΩlnM

không ổn định và phục hồi mạnh mẽ của từ và có thểcDP

D tương ứng với , tương ứng vớiXPy

... như mong đợi từ mối quan hệ , việc lựa chọn bộ mô tả trở nên không ổn định hơn, nghĩa là, đối với các bộ huấn luyện khác nhau, bộ mô tả được chọn thường khác nhau ...N=CΩlnM

Câu nói thứ hai là phần làm tôi bối rối. Dường như với tôi khi bất bình đẳng bị vi phạm, nó không chỉ là giải pháp có thể không duy nhất (không được đề cập), mà bộ mô tả cũng sẽ trở nên không ổn định hơn.


2
Chỉ với bối cảnh, vấn đề tối ưu hóa bạn viết ra khi bắt đầu Q của bạn được gọi là "theo đuổi cơ sở". Nếu bạn thay thế đẳng thức bằng đẳng thức gần đúng (tối đa một số lỗi L2) thì đó được gọi là "khử theo đuổi cơ sở". Cơ sở theo đuổi denoising là tương đương toán học với lasso. y=XcyXc
amip nói rằng Phục hồi lại

Một bộ slide hữu ích (nhưng không dễ) được tìm thấy ở đây: Pages.iu.edu/~dajmcdon/research/talks/lasso.pdf và không có định lý bữa ăn trưa miễn phí.ece.utexas.edu/~cmcaram/pub/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte

Định lý mà bạn trích dẫn là về tính duy nhất. Câu hỏi của bạn khó hiểu vì tính độc đáo không nhất thiết liên quan đến sự ổn định.
amip nói rằng Phục hồi lại

2
Có, tôi tin rằng OP có phần bối rối và câu hỏi không rõ ràng, vì thế mà câu trả lời khác nhau có thể ... Tính độc đáo là dành cho một bộ các điểm dữ liệu, ổn định áp dụng cho kiểm chứng chéo, hoặc bootstrap, hoặc các điểm dữ liệu mới
Xavier Bourret Sicotte

Câu trả lời:


7

CẬP NHẬT

Xem bài đăng thứ hai này để biết phản hồi của McDonald về câu trả lời của tôi trong đó khái niệm về tính nhất quán rủi ro có liên quan đến sự ổn định.


1) Tính độc đáo so với sự ổn định

Câu hỏi của bạn rất khó trả lời vì nó đề cập đến hai chủ đề rất khác nhau: tính độc đáosự ổn định .

  • Theo trực giác, một giải pháp là duy nhất nếu được cung cấp một tập dữ liệu cố định, thuật toán luôn tạo ra kết quả tương tự. Câu trả lời của Martin bao gồm điểm này rất chi tiết.

  • Mặt khác, sự ổn định có thể được hiểu theo trực giác là một trong đó dự đoán không thay đổi nhiều khi dữ liệu huấn luyện được sửa đổi một chút.

Tính ổn định áp dụng cho câu hỏi của bạn vì lựa chọn tính năng Lasso (thường) được thực hiện thông qua Xác thực chéo, do đó thuật toán Lasso được thực hiện trên các nếp gấp dữ liệu khác nhau và có thể mang lại kết quả khác nhau mỗi lần.

Ổn định và Định lý Bữa trưa Miễn phí

Sử dụng định nghĩa từ đây nếu chúng ta xác định Độ ổn định đồng nhất là:

Một thuật toán có độ ổn định đồng nhất đối với hàm mất nếu sau đây giữ:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Được coi là một hàm của , thuật ngữ có thể được viết là . Chúng tôi nói rằng thuật toán ổn định khi giảm khi .mββmβm1m

sau đó "Định lý không ăn trưa miễn phí, Xu và Caramis (2012)" nói rằng

Nếu một thuật toán thưa thớt , theo nghĩa là nó xác định các tính năng dư thừa, thì thuật toán đó không ổn định (và độ ổn định đồng nhất bị ràng buộc không về 0). [...] Nếu một thuật toán ổn định, thì không có hy vọng rằng nó sẽ thưa thớt. (trang 3 và 4)β

Chẳng hạn, hồi quy chính quy ổn định và không xác định các tính năng dư thừa, trong khi hồi quy chính quy (Lasso) không ổn định. L2L1

Một nỗ lực trả lời câu hỏi của bạn

Tôi nghĩ rằng 'lasso ủng hộ một giải pháp thưa thớt' không phải là câu trả lời cho lý do tại sao sử dụng lasso để lựa chọn tính năng

  • Tôi không đồng ý, lý do Lasso được sử dụng để lựa chọn tính năng là vì nó mang lại một giải pháp thưa thớt và có thể được hiển thị là có thuộc tính IRF, tức là Xác định các Tính năng Dự phòng.

Lý do quan trọng nhất gây ra sự bất ổn này là gì

  • Định lý ăn trưa miễn phí

Đi xa hơn

Điều này không có nghĩa là sự kết hợp giữa Xác thực chéo và Lasso không hoạt động ... thực tế nó đã được chứng minh bằng thực nghiệm (và với nhiều lý thuyết hỗ trợ) để hoạt động rất tốt trong các điều kiện khác nhau. Các từ khóa chính ở đây là tính nhất quán , rủi ro, bất bình đẳng orory vv ..

Các slide và giấy sau đây của McDonald và Homrighausen (2013) mô tả một số điều kiện theo đó lựa chọn tính năng Lasso hoạt động tốt: slide và giấy: "Lasso, kiên trì và xác nhận chéo, McDonald và Homrighausen (2013)" . Bản thân Tibshirani cũng đăng một bộ ghi chú tuyệt vời về sự cay đắng , hồi quy tuyến tính

Các điều kiện khác nhau cho tính nhất quán và tác động của chúng đối với Lasso là một chủ đề nghiên cứu tích cực và chắc chắn không phải là một câu hỏi tầm thường. Tôi có thể chỉ cho bạn một số tài liệu nghiên cứu có liên quan:


1
Cảm ơn bạn đã trả lời toàn diện của bạn! Các bộ slide bạn cung cấp chỉ là tuyệt vời!
meTchaikovsky

1
Tôi vẫn đang cố gắng xử lý định nghĩa về sự ổn định này. Bản dịch của tôi là "một thuật toán ổn định nếu sự thay đổi của hàm lỗi / mất trong khi xác thực chéo có một giới hạn trên giảm xuống dưới dạng " khi chúng tôi tăng số lượng nếp gấp / bộ thử nghiệm "β1m , tôi hy vọng tôi đã hiểu đúng. Tôi tự hỏi tại sao nó là một tài sản mong muốn để làm cho Lasso hoạt động tốt (hay chính xác hơn là tôi tự hỏi liệu nó có phải là một tài sản cần thiết không).
Sextus Empiricus

1
Có, ngoại trừ m là số điểm dữ liệu. xem ở đây trang 7 để biết ràng buộc xác suất: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf - điểm quan trọng là không có ràng buộc nào về tính linh hoạt được cung cấp bằng cách tăng kích thước tập dữ liệu, có nghĩa là thuật toán có thể nhảy đến các chức năng giả thuyết ở xa tùy thuộc vào một tập dữ liệu cụ thể. Đây là lý do tại sao các điều kiện thay thế được đề xuất, liên quan đến cấu trúc phân phối và tương quan cơ bản (tôi nghĩ) - nhưng sẽ cần giúp làm cho những điều đó rõ ràng hơn
Xavier Bourret Sicotte

Một khái niệm quan trọng khác là tính nhất quán như được giải thích ở đây chẳng hạn: stat.ethz.ch/~nicolai/stability.pdf - sự ổn định và tính nhất quán được liên kết là không rõ ràng nhưng dường như là chủ đề của nghiên cứu tích cực, ví dụ như cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

Câu trả lời tốt đẹp! Bạn cũng có thể cập nhật một số liên kết với các mô tả chi tiết hơn trong trường hợp các liên kết tự chết trong tương lai? (Tôi đã làm một cái cho bạn rồi.)
Richard Hardy

7

Bình luận từ Daniel J. McDonald

Trợ lý giáo sư tại Đại học Indiana Bloomington, tác giả của hai bài báo được đề cập trong phản hồi ban đầu từ Xavier Bourret Sicotte .

Giải thích của bạn, nói chung, khá chính xác. Một vài điều tôi sẽ chỉ ra:

  1. Mục tiêu của chúng tôi trong loạt bài viết về CV và Lasso là chứng minh rằng "Lasso + Xác thực chéo (CV)" cũng như "Lasso + tối ưu "λ . Cụ thể, chúng tôi muốn chứng minh rằng các dự đoán cũng làm như vậy (không có mô hình). Để đưa ra tuyên bố về việc phục hồi chính xác các hệ số (tìm đúng hệ số không thưa thớt), người ta cần phải đưa ra một sự thật thưa thớt, điều mà chúng tôi không muốn làm.

  2. Sự ổn định của thuật toán ngụ ý tính nhất quán rủi ro (lần đầu tiên được chứng minh bởi Bousquet và Elisseeff, tôi tin). Theo tính nhất quán rủi ro, ý tôi làtrở về 0 trong đó f là hoặc là yếu tố dự đoán tốt nhất trong một số lớp nếu lớp bị sai. Đây chỉ là một điều kiện đủ. Nó được đề cập trên các slide mà bạn liên kết đến, về cơ bản, là một kỹ thuật chứng minh khả thi sẽ không hoạt động, vì lasso không ổn định.||f^(X)f(X)||E[Y|X]

  3. Sự ổn định chỉ đủ nhưng không cần thiết. Chúng tôi đã có thể chỉ ra rằng, trong một số điều kiện, dự đoán, lasso + CV, cũng như trên lasso + tối ưu ,. Bài báo mà bạn trích dẫn đưa ra các giả định yếu nhất có thể (những điều trên slide 16, cho phép ), nhưng sử dụng hình thức Lasso bị ràng buộc hơn là phiên bản Lagrangian phổ biến hơn. Một bài báo khác ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) sử dụng phiên bản Lagrangian. Nó cũng cho thấy trong điều kiện mạnh hơn nhiều, lựa chọn mô hình cũng sẽ hoạt động. Một bài báo gần đây hơn ( https://arxiv.org/abs/1605.02214 ) bởi những người khác tuyên bố sẽ cải thiện những kết quả này (tôi chưa đọc kỹ).λp>n

  4. Nói chung, vì lasso (hoặc bất kỳ thuật toán lựa chọn nào) không ổn định, người ta cần phân tích cẩn thận hơn và / hoặc giả định mạnh mẽ để chỉ ra rằng thuật toán của Cameron + CV mộc sẽ chọn đúng mô hình. Tôi không nhận thức được các điều kiện cần thiết, mặc dù điều này thường cực kỳ thú vị. Không quá khó để chỉ ra rằng đối với lambda cố định, người dự đoán Lasso là người địa phương Lipschitz trong vectơ (Tôi tin rằng một hoặc nhiều bài báo của Ryan Tibshirani làm điều này). Nếu ai đó cũng có thể lập luận rằng điều này đúng trong , thì điều này sẽ rất thú vị và có liên quan ở đây.YXi

Việc mua chính mà tôi sẽ thêm vào câu trả lời của bạn: Ổn định, có nghĩa là "tính nhất quán rủi ro" hoặc độ chính xác dự đoán chính xác. Nó cũng có thể ám chỉ tính nhất quán tham số ước tính theo các giả định khác. Nhưng định lý bữa trưa miễn phí có nghĩa là lựa chọn bữa trưa không ổn định. Lasso không ổn định ngay cả với lambda cố định. Do đó, nó chắc chắn không ổn định khi kết hợp với CV (bất kỳ loại nào). Tuy nhiên, mặc dù thiếu sự ổn định, nó vẫn phù hợp với rủi ro và lựa chọn phù hợp với hoặc không có CV. Tính độc đáo là không quan trọng ở đây.


5

Lasso, không giống như hồi quy Ridge (xem ví dụ Hoerl và Kennard, 1970; Hastie et al., 2009) không phải lúc nào cũng có một giải pháp duy nhất, mặc dù nó thường có. Nó phụ thuộc vào số lượng tham số trong mô hình, các biến liên tục hay rời rạc và thứ hạng của ma trận thiết kế của bạn. Các điều kiện cho tính độc đáo có thể được tìm thấy trong Tibshirani (2013).

Người giới thiệu:

Hastie, T., Tibshirani, R. và Friedman, J. (2009). Các yếu tố của học thống kê . Springer loạt trong thống kê. Springer, New York, in lần thứ 11, tái bản lần 2.

Hoerl, AE và Kennard, RW (1970). Hồi quy độ dốc: Ước tính thiên vị cho các vấn đề không chính thống. Kỹ thuật , 12 (1), 55-67.

Tibshirani, RJ (2013). Vấn đề Lasso và tính độc đáo. Tạp chí điện tử thống kê , 7, 1456-1490.


@ Cảm ơn bạn! Bạn có thể thêm một bản tóm tắt ngắn gọn về những tài liệu tham khảo mà bạn cung cấp?
meTchaikovsky

Hasite et al. (2009) là cuốn sách bao gồm rất nhiều chủ đề, hồi quy Lasso và Ridge trong số đó. Nó rất đáng để đọc và có thể được tải xuống từ trang chủ của Hastie: web.stanford.edu/~hastie/ElemStatLearn/doad.html Hoerl & Kennard (1970) là một tài liệu tham khảo hồi quy kinh điển của Ridge hơn là để đọc về hồi quy Ridge. Tibshirani (2013) chứa thông tin về thời điểm Lasso có một giải pháp duy nhất (và khi nào nó có số lượng giải pháp vô hạn).
Phil

3

Điều gì gây ra sự không độc đáo.

Đối với các vectơ (trong đó là dấu hiệu biểu thị sự thay đổi của sẽ tăng hay giảm ), bất cứ khi nào chúng phụ thuộc hoàn toàn:sixisicic1

αisixi=0andαi=0

sau đó, có vô số kết hợp không thay đổi giải pháp và định mức .ci+γαiXcc1

Ví dụ:

y=[11]=[210111][c1c2c3]=Xc

có cho các giải pháp:c1=1

[c1c2c3]=[010]+γ[121]

với0γ12

Chúng ta có thể sắp xếp thay thế vectơ bằng cách sử dụngx2x2=0.5x1+0.5x3


Tình huống không có điều kiện này

Trong bài viết từ Tibshirani (từ câu trả lời của Phil), ba điều kiện đủ được mô tả để Lasso có một giải pháp độc đáo.

  1. Độc lập tuyến tính Khi không gian null là null hoặc tương đương khi thứ hạng của bằng số cột (M). Trong trường hợp đó, bạn không có kết hợp tuyến tính như trên.XX
  2. Độc lập hoàn toàn Khi các cột ở vị trí chung.Xs

    Nghĩa là, không có cột nào biểu thị các điểm trong mặt phẳng chiều. Một mặt phẳng k-2 có thể được tham số hóa bởi bất kỳ điểm nào dưới dạng với . Với điểm thứ trong cùng mặt phẳng này, bạn sẽ có các điều kiện vớikk2k1αisixiαi=1ksjxjαisixiαi=0

    Lưu ý rằng trong ví dụ, các cột , và nằm trên một dòng. (Tuy nhiên ở đây hơi khó xử vì các dấu hiệu có thể âm, ví dụ: ma trận vừa cũng như không có giải pháp duy nhất)x1x2x3[[21][11][01]]

  3. Khi các cột là từ một phân phối liên tục thì không chắc (xác suất gần như bằng 0) là bạn sẽ có các cột không ở vị trí chung.XX

    Tương phản với điều này, nếu các cột là một biến phân loại thì xác suất này không phải là gần như bằng không. Xác suất để một biến liên tục bằng với một số bộ số (tức là các mặt phẳng tương ứng với khoảng affine của các vectơ khác) là 'gần như' không. Nhưng, đây không phải là trường hợp cho các biến rời rạc.X


+1 nhưng tôi nghĩ rằng những gì có nghĩa là không ổn định trong các cuộc thảo luận gần đây có liên quan đến lựa chọn tính năng thông qua xác thực chéo với sự có mặt của các tính năng tương quan
Xavier Bourret Sicotte

@XavierBourretSicotte có nghĩa là ngay cả khi có một giải pháp duy nhất, quá trình lựa chọn có thể không ổn định do các tính năng tương quan thêm rắc rối vào (số) tìm giải pháp duy nhất đó? Có một chút khó hiểu vì câu hỏi hỏi một mặt về sự ổn định và mặt khác về sự độc đáo.
Sextus Empiricus

Vâng, đó là điều tôi muốn nói, không nhất thiết là vì sự không ổn định về số lượng mà vì sự khác biệt vốn có trong các nếp gấp của dữ liệu (trong CV) dẫn đến các giải pháp khác nhau cho các giá trị khác nhau trên các nếp gấp. Trong có thể còn tồi tệ hơn khi bootstrappingλ
Xavier Bourret Sicotte

@XavierBourretSicotte Hiện tại tôi không có hình ảnh trực quan rõ ràng tại sao điều này (các giải pháp khác nhau cho và các bộ huấn luyện khác nhau) được cho là không ổn định. Tôi đoán bạn có thể đăng bài này như một câu trả lời và giải thích nó. λ
Sextus Empiricus

@Martijn Weterings Cảm ơn bạn! Tôi vẫn còn ba câu hỏi: 1. làm thế nào để tôi phát hiện sự phụ thuộc một cách chắc chắn? Tôi có nên tìm hiểu xem có độc lập không ( math.stackexchange.com/q/82189 )? 2. Làm thế nào tôi nên xác định trong thực tế? 3. "vị trí chung" của có nghĩa là gì? {v1v0,v2v0,,vkv0}siX
meTchaikovsky
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.