Nói bằng trực giác, nhóm Lasso có thể được ưa thích để Lasso vì nó cung cấp một phương tiện để chúng ta kết hợp (một loại) có thêm thông tin vào ước tính của chúng tôi đối với các hệ số đúng . Như một kịch bản cực đoan, xem xét những điều sau đây:β∗
Với y∼N(Xβ∗,σ2I) , đặt S={j:β∗j≠0} như sự ủng hộ củaβ∗
β^=argminβ∥y−Xβ∥22+λ(|S|1/2∥βS∥2+(p−|S|)1/2∥βSC∥2),
λmaxλβ^=0λ chuyển từ sang (đối với một số nhỏ ), chính xác một nhóm sẽ tham gia hỗ trợ , được coi là ước tính phổ biến cho . Do nhóm của chúng tôi, với xác suất cao, nhóm được chọn sẽ là và chúng tôi đã hoàn thành một công việc hoàn hảo.
λmaxλmax−ϵϵ>0β^SS
Trong thực tế, chúng tôi không chọn nhóm này tốt. Tuy nhiên, các nhóm, mặc dù tốt hơn so với kịch bản cực đoan ở trên, vẫn sẽ giúp chúng ta: sự lựa chọn vẫn sẽ được đưa ra giữa một nhóm các đồng biến thực sự và một nhóm các đồng biến không đúng. Chúng tôi vẫn đang mượn sức mạnh.
Điều này được chính thức hóa ở đây . Họ cho thấy, trong một số điều kiện, giới hạn trên của lỗi dự đoán của lasso nhóm thấp hơn giới hạn dưới của lỗi dự đoán của lasso đồng bằng. Đó là, họ đã chứng minh rằng việc phân nhóm làm cho ước tính của chúng tôi làm tốt hơn.
Đối với câu hỏi thứ hai của bạn: Hình phạt lasso (đơn giản) là piecewise tuyến tính, và điều này dẫn đến đường dẫn giải pháp tuyến tính piecewise. Theo trực giác, trong trường hợp lasso nhóm, hình phạt không còn là tuyến tính nữa, vì vậy chúng tôi không còn có tài sản này. Một tài liệu tham khảo tuyệt vời về tuyến tính từng phần của đường dẫn giải pháp là ở đây . Xem mệnh đề của họ 1. Đặt và . Chúng chỉ ra rằng đường dẫn giải pháp của nhóm lasso là tuyến tính khi và chỉ khi là hằng số từng phần. Tất nhiên, không phải vì hình phạt của chúng tôi có độ cong toàn cầu.L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J