Tại sao nên sử dụng lasso nhóm thay vì lasso?


13

Tôi đã đọc rằng lasso nhóm được sử dụng để lựa chọn biến và độ thưa thớt trong một nhóm các biến. Tôi muốn biết trực giác đằng sau yêu sách này.

  • Tại sao nhóm Lasso lại thích Lasso hơn?
  • Tại sao đường dẫn giải pháp lasso nhóm không piecewise tuyến tính?

1
Điều tôi hiểu từ Yuan và Lin (2006) rằng lasso được thiết kế để chọn các biến riêng lẻ chứ không phải chọn yếu tố. Vì vậy, Lasso giải quyết vấn đề ANOVA trong đó mục tiêu là chọn các hiệu ứng và tương tác chính quan trọng để dự đoán chính xác, tương đương với việc lựa chọn các nhóm biến. Một ví dụ khác là mô hình cộng với đa thức trong đó mỗi thành phần được biểu diễn dưới dạng kết hợp tuyến tính của các hàm cơ bản của các biến đo ban đầu
Vendetta

Câu trả lời:


11

Nói bằng trực giác, nhóm Lasso có thể được ưa thích để Lasso vì nó cung cấp một phương tiện để chúng ta kết hợp (một loại) có thêm thông tin vào ước tính của chúng tôi đối với các hệ số đúng . Như một kịch bản cực đoan, xem xét những điều sau đây:β

Với yN(Xβ,σ2I) , đặt S={j:βj0} như sự ủng hộ củaβ

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λ chuyển từ sang (đối với một số nhỏ ), chính xác một nhóm sẽ tham gia hỗ trợ , được coi là ước tính phổ biến cho . Do nhóm của chúng tôi, với xác suất cao, nhóm được chọn sẽ là và chúng tôi đã hoàn thành một công việc hoàn hảo.λmaxλmaxϵϵ>0β^SS

Trong thực tế, chúng tôi không chọn nhóm này tốt. Tuy nhiên, các nhóm, mặc dù tốt hơn so với kịch bản cực đoan ở trên, vẫn sẽ giúp chúng ta: sự lựa chọn vẫn sẽ được đưa ra giữa một nhóm các đồng biến thực sự và một nhóm các đồng biến không đúng. Chúng tôi vẫn đang mượn sức mạnh.

Điều này được chính thức hóa ở đây . Họ cho thấy, trong một số điều kiện, giới hạn trên của lỗi dự đoán của lasso nhóm thấp hơn giới hạn dưới của lỗi dự đoán của lasso đồng bằng. Đó là, họ đã chứng minh rằng việc phân nhóm làm cho ước tính của chúng tôi làm tốt hơn.

Đối với câu hỏi thứ hai của bạn: Hình phạt lasso (đơn giản) là piecewise tuyến tính, và điều này dẫn đến đường dẫn giải pháp tuyến tính piecewise. Theo trực giác, trong trường hợp lasso nhóm, hình phạt không còn là tuyến tính nữa, vì vậy chúng tôi không còn có tài sản này. Một tài liệu tham khảo tuyệt vời về tuyến tính từng phần của đường dẫn giải pháp là ở đây . Xem mệnh đề của họ 1. Đặt và . Chúng chỉ ra rằng đường dẫn giải pháp của nhóm lasso là tuyến tính khi và chỉ khi là hằng số từng phần. Tất nhiên, không phải vì hình phạt của chúng tôi có độ cong toàn cầu.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J

2
Nó có rất nhiều ý nghĩa bây giờ. Cảm ơn rất nhiều cho câu trả lời của bạn.
Vendetta

4

Câu trả lời của Ben là kết quả chung nhất. Nhưng câu trả lời trực quan cho OP được thúc đẩy bởi trường hợp của các yếu tố dự đoán phân loại, thường được mã hóa dưới dạng nhiều biến giả: một biến cho mỗi loại. Nó có ý nghĩa trong nhiều phân tích để xem xét các biến giả này (đại diện cho một yếu tố dự đoán phân loại) với nhau chứ không phải riêng biệt.

Nếu bạn có một biến phân loại với, giả sử, năm cấp độ, một bức tranh thẳng có thể để lại hai trong và ba. Làm thế nào để bạn xử lý điều này một cách nguyên tắc? Quyết định bỏ phiếu? Nghĩa đen sử dụng các biến giả thay vì phân loại có ý nghĩa hơn? Làm thế nào để mã hóa giả của bạn ảnh hưởng đến sự lựa chọn của bạn?

Như họ nói trong phần giới thiệu The lasso nhóm về hồi quy logistic , nó đề cập đến:

Đã có trường hợp đặc biệt trong hồi quy tuyến tính khi không chỉ có các yếu tố dự đoán liên tục mà còn cả các yếu tố dự đoán phân loại, giải pháp Lasso không thỏa đáng vì nó chỉ chọn các biến giả giả thay vì toàn bộ các yếu tố. Hơn nữa, giải pháp Lasso phụ thuộc vào cách các biến giả được mã hóa. Chọn độ tương phản khác nhau cho một công cụ dự đoán phân loại sẽ tạo ra các giải pháp khác nhau nói chung.

Như Ben chỉ ra, cũng có những liên kết tinh tế hơn giữa các yếu tố dự đoán có thể chỉ ra rằng chúng nên ở trong hoặc ngoài cùng nhau. Nhưng các biến phân loại là con đẻ của nhóm Lasso.


@Ben: Hmmm ... Tôi thực sự không thể hiểu bình luận đầu tiên của OP, Có vẻ như đó là phản hồi cho một bình luận hiện đã bị xóa? Câu hỏi và tiêu đề của nó - đó là những gì hầu hết người xem sẽ đọc - dường như là một câu hỏi chung. Tôi chắc chắn sẽ xóa câu trả lời của mình nếu câu hỏi và tiêu đề được thay đổi thành một cái gì đó về "Những ứng dụng không rõ ràng nào có ở đó để nhóm Lasso ngoài trường hợp các biến phân loại?"
Wayne

Được chứ. Tôi thích quan điểm của bạn về cách sử dụng (đơn giản) lasso vào các yếu tố làm cho các ước tính phụ thuộc vào mã hóa của các yếu tố! Trước đây tôi chỉ nghĩ rằng nhóm Lasso là cho chúng ta một loại "độ thưa của phép đo" thay vì "độ thưa tham số" (nghĩa là chúng ta nên đo hệ số hay không - tất cả các mức nên được chọn hoặc không có.)
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.