Nhược điểm của việc sử dụng Lasso cho lựa chọn biến để hồi quy là gì?


60

Từ những gì tôi biết, sử dụng lasso cho lựa chọn biến xử lý vấn đề của các đầu vào tương quan. Ngoài ra, vì nó tương đương với Least Angle Regression, nên nó không bị tính toán chậm. Tuy nhiên, nhiều người (ví dụ những người tôi biết làm thống kê sinh học) dường như vẫn thích lựa chọn biến theo từng bước hoặc theo giai đoạn. Có bất kỳ nhược điểm thực tế nào của việc sử dụng Lasso khiến nó không thuận lợi không?


9
Tôi không biết bạn đã nghe nói rằng Lasso xử lý vấn đề cộng tác ở đâu, điều đó hoàn toàn không đúng.
Macro

3
Móng ngựa trước tốt hơn LASSO cho lựa chọn mô hình - ít nhất là trong trường hợp mô hình thưa thớt (trong đó lựa chọn mô hình là hữu ích nhất). Bạn có thể tìm thấy một cuộc thảo luận về những điểm này trong Liên kết này . Hai trong số các tác giả của bài viết này cũng có một bài viết tương tự trong các cuộc họp ở Valencia, Bayesian Statistics 9 "Shrink Globally Act Local: Spzzy Bayesian chính quy và dự đoán". Bài báo của Valencia đi sâu vào chi tiết hơn nhiều về khung hình phạt.
xác suất

9
Nếu bạn chỉ quan tâm đến dự đoán, thì lựa chọn mô hình sẽ không giúp ích và thường gây tổn thương (trái ngược với hình phạt bậc hai = L2 Norm = hồi quy sườn không có lựa chọn biến). LASSO trả giá trong phân biệt dự đoán để cố gắng thực hiện lựa chọn biến.
Frank Harrell

3
Việc tung đồng xu để đưa ra quyết định tùy tiện thường tiết lộ rằng bạn thực sự quan tâm đến kết quả. Bất kỳ phương pháp nào đưa ra quyết định cho bạn về việc lựa chọn các yếu tố dự đoán thường khiến bạn hiểu rõ rằng dự đoán nào thuộc về tự nhiên hơn trong mô hình, những ý tưởng mà bạn không muốn bỏ qua. LASSO có thể hoạt động như vậy.
Nick Cox

5
Tôi thứ hai @Nick: "không có lý thuyết có sẵn để hướng dẫn lựa chọn mô hình" hầu như không thực tế. Tâm lý chung là lý thuyết.
Scortchi - Phục hồi Monica

Câu trả lời:


29

KHÔNG có lý do để thực hiện lựa chọn từng bước. Chỉ là sai thôi.

LASSO / LAR là phương pháp tự động tốt nhất. Nhưng chúng là phương pháp tự động. Họ để cho các nhà phân tích không suy nghĩ.

Trong nhiều phân tích, một số biến phải nằm trong mô hình REGARDLESS của bất kỳ thước đo nào có ý nghĩa. Đôi khi chúng là các biến kiểm soát cần thiết. Những lần khác, việc tìm kiếm một hiệu ứng nhỏ có thể rất quan trọng.


43
"KHÔNG có lý do để thực hiện lựa chọn từng bước. Nó chỉ sai." - Hầu như không bao giờ là những tuyên bố vô cùng càn quét như thế, không có bối cảnh, thực hành thống kê tốt. Nếu bất cứ điều gì ở đây là "chỉ sai", đó là tuyên bố in đậm ở trên. Nếu phân tích của bạn không nhấn mạnh giá trị hoặc ước tính tham số (ví dụ: mô hình dự đoán) thì lựa chọn biến theo từng bước có thể là điều hợp lý để làm và có thể :: gasp :: vượt trội hơn LASSO trong một số trường hợp. (Peter, tôi biết chúng ta đã có convo này trước đây - nhận xét này hướng nhiều hơn đến một độc giả tương lai, những người chỉ có thể bắt gặp bài đăng này chứ không phải người khác). p
Macro

4
-1 do những lời chỉ trích chăn của từng bước. Nó không "chỉ sai" nhưng có một vị trí như một tìm kiếm mô hình xác định. Bạn thực sự có một con ong trong nắp ca-pô của bạn về các phương pháp tự động.
xác suất

8
@Elvis, tôi không phải là chuyên gia về vấn đề này hoặc là người ủng hộ cho từng bước; Tôi chỉ quan tâm đến bản chất vô điều kiện của tuyên bố. Nhưng, vì tò mò tôi đã thực hiện một số mô phỏng đơn giản và nhận thấy rằng khi bạn có một số lượng lớn các dự đoán cộng tuyến mà tất cả đều có hiệu ứng gần như bằng nhau, lựa chọn ngược sẽ tốt hơn LASSO, về mặt dự đoán ngoài mẫu. Tôi đã sử dụng với ε N ( 0 , 1 ) . Các dự đoán là tiêu chuẩn bình thường với c o r ( X
YTôi= =Σj= =1100XTôij+εTôi
ε~VIẾT SAI RỒI(0,1)cho mỗi cặp(j,k). cor(XTôij,XTôik)= =1/2(j,k)
Macro

10
Bạn chắc chắn nên điều tra cộng tác trước khi bắt đầu bất kỳ hồi quy nào. Tôi muốn nói rằng nếu bạn có một số lượng lớn các biến cộng tuyến thì bạn không nên sử dụng LASSO hoặc Stepwise; bạn nên giải quyết vấn đề cộng tác (xóa biến, lấy thêm dữ liệu, v.v.) hoặc sử dụng phương pháp được thiết kế cho các vấn đề đó (ví dụ: hồi quy sườn núi)
Peter Flom - Tái lập Monica

5
OK, bạn nói đúng nhưng tôi không nghĩ nó thực sự phù hợp. Không phải ngược lại NOR lasso (cũng không phải phương pháp chọn biến nào) giải quyết tất cả các vấn đề. Có những điều bạn phải làm trước khi bắt đầu lập mô hình - và một trong số đó là kiểm tra tính cộng tác. Tôi cũng không quan tâm phương thức lựa chọn biến nào hoạt động cho các tập dữ liệu khác đã vi phạm quy tắc hồi quy mà cả hai phương pháp đều áp dụng.
Peter Flom - Tái lập Monica

22

Nếu bạn chỉ quan tâm đến lỗi dự đoán và không quan tâm đến khả năng diễn giải, suy luận ngẫu nhiên, đơn giản mô hình, kiểm tra hệ số, v.v., tại sao bạn vẫn muốn sử dụng mô hình hồi quy tuyến tính?

Bạn có thể sử dụng một cái gì đó như tăng cường trên cây quyết định hoặc hỗ trợ hồi quy véc tơ và có được chất lượng dự đoán tốt hơn và vẫn tránh bị quá mức trong cả hai trường hợp được đề cập. Đó là Lasso có thể không phải là lựa chọn tốt nhất để có được chất lượng dự đoán tốt nhất.

Nếu sự hiểu biết của tôi là chính xác, Lasso dành cho các tình huống khi bạn vẫn quan tâm đến chính mô hình, không chỉ dự đoán. Đó là - xem các biến được chọn và hệ số của chúng, diễn giải theo một cách nào đó, v.v. Và đối với điều này - Lasso có thể không phải là lựa chọn tốt nhất trong các tình huống nhất định như được thảo luận trong các câu hỏi khác ở đây.


20

LASSO khuyến khích thu nhỏ các hệ số về 0, tức là loại bỏ các biến số đó khỏi mô hình của bạn. Ngược lại, các kỹ thuật chính quy hóa khác như một sườn núi có xu hướng giữ tất cả các biến thể.

Vì vậy, tôi khuyên bạn nên suy nghĩ về việc giảm này có ý nghĩa với dữ liệu của bạn hay không. Ví dụ, xem xét việc thiết lập một xét nghiệm chẩn đoán lâm sàng trên dữ liệu microarray gen hoặc trên dữ liệu quang phổ rung động.

  • Bạn sẽ mong đợi một số gen mang thông tin liên quan, nhưng rất nhiều gen khác chỉ là tiếng ồn. ứng dụng của bạn. Bỏ những biến thể đó là một ý tưởng hoàn toàn hợp lý.

  • Ngược lại, các bộ dữ liệu phổ rung động (trong khi thường có kích thước tương tự so với dữ liệu microarray) có xu hướng có thông tin liên quan "bôi nhọ" trên các phần lớn của phổ (tương quan). Trong tình huống này, yêu cầu chính quy hóa bỏ các biến thể không phải là một cách tiếp cận đặc biệt hợp lý. Hơn nữa, vì các kỹ thuật chính quy hóa khác như PLS thích nghi hơn với loại dữ liệu này.

Các yếu tố của học thống kê đưa ra một cuộc thảo luận tốt về LASSO và đối chiếu nó với các kỹ thuật chính quy hóa khác.


14

Nếu hai yếu tố dự đoán có LASSO tương quan cao, cuối cùng có thể thả một cái khá tùy tiện. Điều đó không tốt lắm khi bạn muốn đưa ra dự đoán cho một dân số nơi hai dự đoán đó không có mối tương quan cao, và có lẽ là một lý do để thích hồi quy sườn trong những trường hợp đó.

Bạn cũng có thể nghĩ tiêu chuẩn hóa các yếu tố dự đoán (để nói khi nào hệ số là "lớn" hay "nhỏ") thay vì tùy tiện & bị đánh đố (như tôi) về các cách hợp lý để chuẩn hóa các dự báo phân loại.


1
Cảm ơn câu trả lời này. Bạn có biết bất kỳ bài báo nào thảo luận về các vấn đề với các yếu tố dự đoán / dự đoán phân loại tương quan không?
Berk U.

2
Đáng nói thêm là có các phương pháp hồi quy bị phạt khác cố gắng làm giảm bớt các vấn đề đó (chẳng hạn như lưới đàn hồi).
bdeonovic

Để thực hiện lựa chọn biến với các biến cộng tuyến cao, sườn thích ứng lặp (tương đương với hồi quy bị phạt L0 và s được thực hiện trong gói l0ara) có xu hướng thực hiện tốt nhất, hoặc các hình phạt L0L2, như được thực hiện trong gói L0Learn cũng hoạt động tốt ...
Tom Wenseleers

9

Lasso chỉ hữu ích nếu bạn hạn chế xem xét các mô hình tuyến tính trong các tham số cần ước tính. Nói cách khác, Lasso không đánh giá liệu bạn đã chọn hình thức chính xác của mối quan hệ giữa (các) biến độc lập và phụ thuộc.

Điều rất hợp lý là có thể có các hiệu ứng phi tuyến, tương tác hoặc đa thức trong một tập dữ liệu tùy ý. Tuy nhiên, các thông số kỹ thuật mô hình thay thế này sẽ chỉ được đánh giá nếu người dùng tiến hành phân tích đó; Lasso không phải là một thay thế cho việc làm như vậy.

Đối với một ví dụ đơn giản về cách điều này có thể sai, hãy xem xét một tập dữ liệu trong đó các khoảng khác nhau của biến độc lập sẽ dự đoán các giá trị cao và thấp xen kẽ của biến phụ thuộc. Điều này sẽ rất khó khăn để sắp xếp bằng cách sử dụng các mô hình tuyến tính thông thường, vì không có hiệu ứng tuyến tính trong các biến số của bảng kê khai để phân tích (nhưng một số biến đổi của các biến số bảng kê khai có thể hữu ích). Còn lại ở dạng biểu hiện của nó, Lasso sẽ kết luận không chính xác rằng tính năng này là ngoại lai và không có hệ số của nó vì không có mối quan hệ tuyến tính . Mặt khác, vì có các phân chia theo trục trong dữ liệu, một mô hình dựa trên cây như một khu rừng ngẫu nhiên có thể sẽ hoạt động khá tốt.

nhập mô tả hình ảnh ở đây


5

Một nhược điểm thực tế của Lasso và các kỹ thuật chính quy hóa khác là tìm ra hệ số chính quy tối ưu, lambda. Sử dụng xác nhận chéo để tìm giá trị này có thể tốn kém như các kỹ thuật lựa chọn từng bước.


Bạn có ý nghĩa gì bởi "đắt tiền"?
đánh dấu

4
Yêu cầu này không thực sự đúng. Nếu bạn áp dụng tìm kiếm lưới "khởi động ấm" như trong phương pháp glmnet, bạn có thể tính toán toàn bộ lưới rất nhanh.
xác suất

1
@probabilityislogic Đúng, tôi chỉ đọc về khởi đầu ấm áp sau khi tôi nhận xét ở trên. Bạn nghĩ gì về bài viết này, trong đó chỉ ra khởi động ấm chậm hơn và đôi khi kém hiệu quả hơn so với xác nhận chéo đơn giản? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/iêu
rm999

5
λ

5

Tôi không phải là chuyên gia LASSO nhưng tôi là chuyên gia về chuỗi thời gian. Nếu bạn có dữ liệu chuỗi thời gian hoặc dữ liệu không gian thì tôi sẽ tránh một giải pháp dựa trên các quan sát độc lập. Hơn nữa, nếu có các hiệu ứng xác định không xác định đã phát tàn phá dữ liệu của bạn (thay đổi cấp độ / xu hướng thời gian, v.v.) thì LASSO thậm chí sẽ không phải là một cái búa tốt. Khi kết thúc khi bạn có dữ liệu chuỗi thời gian, bạn thường cần phân đoạn dữ liệu khi gặp phải các tham số hoặc phương sai lỗi thay đổi theo thời gian.


1
LASSO có thể cung cấp hiệu suất dự báo tốt khi được áp dụng trên các mô hình chuỗi thời gian dựa trên hồi quy như tự động ar (AR), tự động vectơ (VAR) và mô hình sửa lỗi vectơ (VECM). Ví dụ, tìm kiếm sự tự phát của vectơ Lasso và bạn sẽ tìm thấy nhiều ví dụ trong tài liệu học thuật. Theo kinh nghiệm của riêng tôi, sử dụng LASSO cho các mô hình VAR cố định cung cấp hiệu suất dự báo vượt trội so với tất cả các lựa chọn tập hợp con hoặc chính quy hóa sườn núi, trong khi chính quy hóa sườn núi đánh bại LASSO cho các mô hình VAR tích hợp (do đa hướng, theo câu trả lời của Scortchi).
Richard Hardy

Vì vậy, sự thất bại của LASSO không phải là vốn có trong chuỗi thời gian.
Richard Hardy

2

Đây đã là một câu hỏi khá cũ nhưng tôi cảm thấy rằng trong thời gian đó, hầu hết các câu trả lời ở đây khá lỗi thời (và câu hỏi được kiểm tra là câu trả lời đúng là imho hoàn toàn sai).

Đầu tiên, về mặt nhận được hiệu suất dự đoán tốt, không phải sự thật là LASSO luôn tốt hơn từng bước. Bài viết "So sánh mở rộng về lựa chọn tập hợp con tốt nhất, lựa chọn chuyển tiếp theo chiều dọc và Lasso" của Hastie et al (2017) cung cấp một so sánh rộng rãi về phía trước từng bước, LASSO và một số biến thể LASSO như LASSO thoải mái cũng như tập hợp con tốt nhất và chúng cho thấy rằng từng bước tốt hơn LASSO. Một biến thể của LASSO mặc dù - LASSO thoải mái - là biến thể tạo ra độ chính xác dự đoán mô hình cao nhất trong phạm vi rộng nhất của tình huống. Kết luận về cái nào là tốt nhất phụ thuộc rất nhiều vào những gì bạn cho là tốt nhất, ví dụ: liệu đây có phải là độ chính xác dự đoán cao nhất hay chọn ít biến số dương nhất.

Có cả một sở thú về phương pháp học tập thưa thớt, hầu hết trong số đó tốt hơn LASSO. Ví dụ: có Meinhausen LASSO thoải mái , LASSOSCAD và MCP thích ứng với hồi quy được thực hiện trong ncvreggói, tất cả đều có độ lệch ít hơn LASSO tiêu chuẩn và do đó có thể thích hợp hơn. Hơn nữa, nếu bạn quan tâm đến giải pháp thưa thớt tuyệt đối với hiệu suất dự đoán tốt nhất thì hồi quy bị phạt L0 (hay còn gọi là tập hợp con tốt nhất, tức là dựa trên việc xử phạt nr của các hệ số khác 0 so với tổng giá trị tuyệt đối của các hệ số trong LASSO) tốt hơn LASSO, xem ví dụ l0aragói gần đúng với GLM bị phạt L0 bằng cách sử dụng quy trình sườn thích ứng lặpvà không giống như LASSO cũng hoạt động rất tốt với các biến cộng tuyến cao và L0Learngói có thể phù hợp với các mô hình hồi quy bị phạt L0 bằng cách sử dụng tọa độ gốc , có khả năng kết hợp với hình phạt L2 để chuẩn hóa cộng tuyến.

Vì vậy, để trở lại câu hỏi ban đầu của bạn: tại sao không sử dụng LASSO cho lựa chọn biến? :

(1) bởi vì các hệ số sẽ bị sai lệch cao, được cải thiện trong hồi quy bị phạt LASSO, MCP và SCAD thoải mái, và giải quyết hoàn toàn trong hồi quy bị phạt L0 (có thuộc tính orory đầy đủ, nghĩa là nó có thể chọn ra cả hai biến nhân quả và trả về hệ số không thiên vị, cũng cho các trường hợp p> n)

(2) bởi vì nó có xu hướng tạo ra nhiều dương tính giả hơn so với hồi quy bị phạt L0 (trong các thử nghiệm của tôi l0arathực hiện tốt nhất sau đó, tức là sườn thích ứng lặp, theo sau L0Learn)

(3) bởi vì nó không thể xử lý tốt các biến cộng tuyến (về cơ bản nó sẽ chỉ chọn ngẫu nhiên một trong các biến cộng tuyến) - sườn thích ứng lặp / l0ara và các hình phạt L0L2 trong L0Learnviệc xử lý điều đó tốt hơn nhiều.

Tất nhiên, nói chung, bạn vẫn sẽ phải sử dụng xác thực chéo để điều chỉnh (các) tham số chính quy của mình để có hiệu suất dự đoán tối ưu, nhưng đó không phải là vấn đề. Và bạn thậm chí có thể thực hiện suy luận chiều cao về các tham số của mình và tính toán khoảng tin cậy 95% cho các hệ số của bạn nếu bạn muốn thông qua bootstrapping không tính toán (thậm chí có tính đến sự không chắc chắn trong việc lựa chọn chính quy tối ưu nếu bạn cũng xác thực chéo trên mỗi tập dữ liệu được khởi động , mặc dù điều đó trở nên khá chậm sau đó).

LASSO tính toán không chậm hơn để phù hợp hơn so với cách tiếp cận btw, chắc chắn không phải nếu một người sử dụng mã được tối ưu hóa cao sử dụng khởi động ấm để tối ưu hóa chính quy LASSO của bạn (bạn có thể so sánh bản thân bằng cách sử dụng fslệnh để chuyển tiếp từng bước vàlasso cho LASSO trong bestsubsetgói). Thực tế là các cách tiếp cận từng bước vẫn còn phổ biến có lẽ phải làm với niềm tin sai lầm của nhiều người rằng sau đó người ta có thể giữ mô hình cuối cùng của bạn và báo cáo giá trị p liên quan - thực tế không phải là điều đúng, vì điều này không phải là điều đúng. tính đến sự không chắc chắn được giới thiệu bởi lựa chọn mô hình của bạn, dẫn đến cách giá trị p quá lạc quan.

Hi vọng điêu nay co ich?


0

Một vấn đề lớn là khó khăn trong việc kiểm tra giả thuyết. Bạn không thể dễ dàng tìm ra biến nào có ý nghĩa thống kê với Lasso. Với hồi quy từng bước, bạn có thể thực hiện kiểm tra giả thuyết ở một mức độ nào đó, nếu bạn cẩn thận về việc điều trị nhiều xét nghiệm.


8
Tôi muốn nói rằng đó là một lợi thế, không phải là bất lợi. Nó ngăn bạn làm điều gì đó có lẽ bạn không nên làm.
Peter Flom - Tái lập Monica

@Peter: Tại sao? Tôi giả định rằng bạn sẽ sửa đúng cho nhiều thử nghiệm, v.v ... sao cho các giá trị P thu được sẽ hợp lệ.
dsimcha

10
thực sự không có cách nào để sửa đúng cho nhiều thử nghiệm theo từng bước. Xem, ví dụ như các chiến lược mô hình hồi quy của Mitchell. Không có cách nào để biết điều chỉnh đúng
Peter Flom - Tái lập Monica

4
Đúng là khó khăn trong việc kiểm tra giả thuyết là một bất lợi tiềm tàng của LASSO. Nó không phải là sự thật rằng đây là một bất lợi hồi quy từng bước vis-a-vie.
gung - Phục hồi Monica

2
Vâng, có khung suy luận chọn lọc (được triển khai trong gói lựa chọn suy luận) để thực hiện (lựa chọn bài đăng) cho LASSO ... Hoặc đối với bất kỳ phương pháp lựa chọn biến nào, người ta có thể sử dụng phương pháp khởi động không tham số để thực hiện suy luận và lấy khoảng tin cậy trên các ước tính tham số của bạn. ..
Tom Wenseleers
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.