Tại sao hồi quy sườn không thể cung cấp khả năng diễn giải tốt hơn LASSO?


11

Tôi đã có một ý tưởng về ưu và nhược điểm của hồi quy sườn và LASSO.

Đối với LASSO, thời hạn phạt L1 sẽ mang lại một vectơ hệ số thưa thớt, có thể được xem như một phương pháp lựa chọn tính năng. Tuy nhiên, có một số hạn chế đối với LASSO. Nếu các tính năng có tương quan cao, LASSO sẽ chỉ chọn một trong số chúng. Ngoài ra, đối với các vấn đề trong đó > , LASSO sẽ chọn tối đa tham số ( và là số lượng quan sát và tham số tương ứng). Những điều này làm cho LASSO theo kinh nghiệm là một phương pháp tối ưu về khả năng dự đoán so với hồi quy sườn núi.n n n ppnnnp

Đối với hồi quy sườn, nó cung cấp khả năng dự đoán tốt hơn nói chung. Tuy nhiên, khả năng diễn giải của nó không tốt như LASSO.

Giải thích trên thường có thể được tìm thấy trong sách giáo khoa trong học máy / khai thác dữ liệu. Tuy nhiên, tôi vẫn còn bối rối về hai điều:

  1. Nếu chúng ta bình thường hóa phạm vi tính năng (giả sử từ 0 đến 1 hoặc với giá trị trung bình bằng 0 và phương sai đơn vị) và chạy hồi quy sườn, chúng ta vẫn có thể có ý tưởng về tầm quan trọng của tính năng bằng cách sắp xếp các giá trị tuyệt đối của các hệ số (tính năng quan trọng nhất có giá trị tuyệt đối cao nhất của các hệ số). Mặc dù chúng tôi không chọn các tính năng một cách rõ ràng, khả năng giải nghĩa không bị mất khi sử dụng hồi quy sườn. Đồng thời, chúng ta vẫn có thể đạt được sức mạnh dự đoán cao. Vậy thì tại sao chúng ta cần LASSO? Am i thiếu cái gì ở đây?

  2. LASSO có được ưa thích do tính chất lựa chọn của nó không? Theo hiểu biết của tôi, lý do tại sao chúng ta cần lựa chọn tính năng là khả năng khái quát hóa và dễ tính toán.

    Để dễ tính toán, chúng tôi không muốn cung cấp tất cả 1 triệu tính năng cho mô hình của mình nếu chúng tôi đang thực hiện một số nhiệm vụ NLP, vì vậy trước tiên chúng tôi bỏ một số tính năng vô dụng để giảm chi phí tính toán. Tuy nhiên, đối với LASSO, chúng tôi chỉ có thể biết kết quả lựa chọn tính năng (vectơ thưa thớt) sau khi chúng tôi cung cấp tất cả dữ liệu vào mô hình của mình, vì vậy chúng tôi không được hưởng lợi từ LASSO về việc giảm chi phí tính toán. Chúng tôi chỉ có thể đưa ra dự đoán nhanh hơn một chút vì hiện tại chúng tôi chỉ cung cấp tập hợp con các tính năng (giả sử 500 trên 1 triệu) vào mô hình của chúng tôi để tạo kết quả dự đoán.

    Nếu LASSO được ưa thích vì khả năng khái quát hóa, thì chúng ta cũng có thể đạt được mục tiêu tương tự bằng cách sử dụng hồi quy sườn (hoặc bất kỳ loại chính quy nào khác). Tại sao chúng ta cần LASSO (hoặc lưới đàn hồi) một lần nữa? Tại sao chúng ta không thể bám vào hồi quy sườn núi?

Ai đó có thể xin vui lòng làm sáng tỏ về điều này? Cảm ơn!


3
L1L2

3
Tôi cũng tự hỏi những cuốn sách giáo khoa nào nói những điều như Đối với hồi quy sườn, nó cung cấp khả năng dự đoán tốt hơn nói chung (ngược lại với LASSO, tôi hiểu, không trái ngược với hồi quy không giới hạn). Có lẽ nói chung không phải là chung trong việc sử dụng của họ. Ngoài ra, có bao nhiêu khả năng diễn giải là các phương pháp chính quy hóa được cho là mang lại? (Ngoài ra, Shmueli "Để giải thích hoặc dự đoán" (2010) là một tác phẩm hay, mặc dù không liên quan trực tiếp.)
Richard Hardy

1
@RichardHardy, bạn nói đúng. Bây giờ tôi đã đọc sách giáo khoa một cách cẩn thận hơn và thấy rằng " không phải hồi quy sườn hay lasso sẽ thống trị toàn bộ cái kia " trên trang 223, Giới thiệu về Học thống kê với các ứng dụng trong R , Gareth James et al
Brad Li

@RichardHardy, ban đầu tôi đã tìm thấy các đối số tương tự cho việc chuẩn hóa L1 trên Câu hỏi thường gặp về LIBLINEAR: csie.ntu.edu.tw/~cjlin/liblinear/
Li Li

Sẽ chạy theo sườn núi và Lasso trên một ví dụ thực tế hoặc hai làm rõ sự khác biệt? (Nhưng chúng không dễ so sánh - phù hợp với cốt truyện so với độ thưa thớt?)
denis

Câu trả lời:


15
  1. Nếu bạn đặt hàng 1 triệu tính năng thu nhỏ, thu nhỏ, nhưng khác không, bạn sẽ phải đưa ra một số quyết định: bạn sẽ xem xét n dự đoán tốt nhất, nhưng n là gì? LASSO giải quyết vấn đề này theo cách nguyên tắc, khách quan, bởi vì mỗi bước trên đường dẫn (và thông thường, bạn sẽ giải quyết một điểm thông qua xác thực chéo), chỉ có m hệ số khác không.

  2. Rất thường xuyên, bạn sẽ đào tạo các mô hình trên một số dữ liệu và sau đó áp dụng nó cho một số dữ liệu chưa được thu thập. Ví dụ: bạn có thể phù hợp với mô hình của mình trên 50.000.000 email và sau đó sử dụng mô hình đó trên mỗi email mới. Đúng, bạn sẽ phù hợp với nó trên bộ tính năng đầy đủ cho 50.000.000 thư đầu tiên, nhưng với mỗi email sau, bạn sẽ xử lý một mô hình thưa hơn và nhanh hơn, và hiệu quả bộ nhớ hơn nhiều. Bạn thậm chí sẽ không cần phải thu thập thông tin cho các tính năng bị bỏ, điều này có thể rất hữu ích nếu các tính năng đắt tiền để trích xuất, ví dụ như thông qua kiểu gen.

Một góc nhìn khác về vấn đề L1 / L2 được nêu ra bởi ví dụ Andrew Gelman là bạn thường có một số trực giác về vấn đề của bạn. Trong một số trường hợp, có thể thực tế là thực sự thưa thớt. Có thể bạn đã đo được hàng triệu gen, nhưng điều hợp lý là chỉ 30.000 trong số chúng thực sự xác định sự trao đổi chất dopamine. Trong tình huống như vậy, L1 được cho là phù hợp với vấn đề hơn.
Trong các trường hợp khác, thực tế có thể dày đặc. Ví dụ, trong tâm lý học, "mọi thứ tương quan (ở một mức độ nào đó) với mọi thứ" (Paul Meehl). Ưu đãi đối với táo vs cam lẽ không tương quan với khuynh hướng chính trị bằng cách nào đó - và thậm chí với chỉ số IQ. Chính quy hóa vẫn có thể có ý nghĩa ở đây, nhưng hiệu ứng zero thực sự nên rất hiếm, vì vậy L2 có thể phù hợp hơn.


y=2x1+3x2x3
x2>x1>x3[0,1]
Brad Li

Tất nhiên bạn có thể sắp xếp chúng, nhưng bạn vẫn sẽ phải đưa ra một số quyết định về việc tập hợp con nào của chúng.
jona

6
Một cách khác để diễn đạt điều này sẽ là: sườn núi có thể giúp lựa chọn tính năng, LASSO thực hiện lựa chọn tính năng.
jona

1
@Brad, ngoài câu trả lời xuất sắc của jona (+1), lưu ý rằng việc đánh giá tính quan trọng của hệ số hồi quy chuẩn hóa của nó là một cách tiếp cận có thể, nhưng không phải là cách duy nhất; có nhiều biện pháp khác nhau về "tầm quan trọng của tính năng" và chúng có thể dễ dàng đưa ra kết quả trái ngược nhau. Xem chủ đề này cho một cuộc thảo luận dài: stats.stackexchange.com/questions/64010 .
amip nói rằng Phục hồi Monica

1

Khả năng giải thích giảm nếu mục tiêu phụ thuộc vào nhiều tính năng. Nó tăng nếu chúng ta có thể giảm số lượng tính năng cũng như duy trì độ chính xác. Chính quy hóa không có khả năng giảm số lượng tính năng. Nhưng Lasso có khả năng. Làm thế nào điều này xảy ra được giải thích trực quan trong liên kết sau:

Nhấp vào Bài viết về Hướng tới Khoa học Dữ liệu

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.