Trong hồi quy Ridge và LASSO, tại sao nhỏ hơn sẽ tốt hơn?


8

Bất cứ ai cũng có thể cung cấp một cái nhìn trực quan về lý do tại sao tốt hơn là có bản beta nhỏ hơn?

Đối với LASSO tôi có thể hiểu rằng, có một thành phần lựa chọn tính năng ở đây. Ít tính năng làm cho mô hình đơn giản hơn và do đó ít có khả năng phù hợp hơn.

Tuy nhiên, đối với sườn núi, tất cả các tính năng (yếu tố) được giữ lại. Chỉ các giá trị nhỏ hơn (theo nghĩa chuẩn L2). Làm thế nào điều này làm cho mô hình đơn giản hơn?

Bất cứ ai có thể cung cấp một cái nhìn trực quan về điều này?


nhỏ hơn không nhất thiết phải tốt hơn: thu hẹp về phía bất kỳ không gian nào làm giảm rủi ro, đặc biệt là trong khu vực lân cận không gian đó. Những người ước tính mà bạn đề cập chỉ tình cờ lấy không gian đó làm gốc.
user795305

Câu trả lời:


9

TL; DR - Nguyên tắc tương tự áp dụng cho cả LASSO và Ridge

Ít tính năng làm cho mô hình đơn giản hơn và do đó ít có khả năng phù hợp hơn

Đây là trực giác tương tự với hồi quy sườn - chúng tôi ngăn mô hình khớp dữ liệu quá mức, nhưng thay vì nhắm mục tiêu các biến nhỏ, có khả năng giả (được giảm xuống 0 trong LASSO), thay vào đó, chúng tôi nhắm mục tiêu các hệ số lớn nhất có thể vượt quá trường hợp cho các biến tương ứng của họ.

Hình phạt L2 thường ngăn mô hình đặt tầm quan trọng "quá nhiều" vào bất kỳ một biến nào, bởi vì các hệ số lớn bị phạt nhiều hơn các biến nhỏ.

Điều này có vẻ như không "đơn giản hóa" mô hình, nhưng nó thực hiện một nhiệm vụ tương tự là ngăn chặn mô hình không khớp với dữ liệu trong tay.

Một ví dụ để xây dựng trực giác

Lấy một ví dụ cụ thể - bạn có thể đang cố gắng dự đoán số lần nhập viện dựa trên đặc điểm của bệnh nhân.

Trong trường hợp này, bạn có thể có một biến tương đối hiếm (chẳng hạn như một bệnh không phổ biến) xảy ra có mối tương quan rất cao trong tập huấn luyện của bạn với việc đọc lại. Trong bộ dữ liệu gồm 10.000 bệnh nhân, bạn chỉ có thể thấy bệnh này 10 lần, với 9 lần đọc (một ví dụ cực kỳ chắc chắn)

Kết quả là, hệ số có thể lớn so với hệ số của các biến khác. Bằng cách giảm thiểu cả hình phạt MSE và L2, đây sẽ là một ứng cử viên tốt cho hồi quy sườn để "thu nhỏ" về phía giá trị nhỏ hơn, vì nó rất hiếm (vì vậy không ảnh hưởng đến MSE nhiều) và giá trị hệ số cực cao.


4

Không có gì đảm bảo rằng có trọng lượng nhỏ hơn thực sự tốt hơn. Hồi quy Lasso và sườn núi hoạt động bằng cách áp đặt kiến ​​thức / giả định / ràng buộc trước vào giải pháp. Cách tiếp cận này sẽ hoạt động tốt nếu các giả định / ràng buộc trước / ràng buộc rất phù hợp với phân phối thực tế đã tạo ra dữ liệu và có thể không hoạt động tốt nếu không. Về tính đơn giản / phức tạp, đó không phải là các mô hình riêng lẻ đơn giản hơn hoặc phức tạp hơn. Thay vào đó, đó là gia đình của các mô hình đang được xem xét.

Từ quan điểm hình học, hồi quy lasso và sườn núi áp đặt các ràng buộc về trọng lượng. Ví dụ: hình thức phổ biến / hình thức Lagrangian của hồi quy sườn núi:

minβyXβ22+λβ22

có thể được viết lại dưới dạng ràng buộc tương đương:

minβyXβ22s.t. β22c

Điều này cho thấy rõ rằng hồi quy sườn núi hạn chế các trọng số nằm trong một siêu cầu có bán kính được điều chỉnh bởi tham số chính quy. Tương tự, lasso ràng buộc các trọng số nằm trong một đa giác có kích thước được điều chỉnh bởi tham số chính quy. Những ràng buộc này có nghĩa là hầu hết không gian tham số ban đầu là ngoài giới hạn và chúng tôi tìm kiếm các trọng số tối ưu trong một không gian con nhỏ hơn nhiều. Không gian con nhỏ hơn này có thể được coi là "phức tạp" hơn so với không gian đầy đủ.

Từ góc độ Bayes, người ta có thể nghĩ về sự phân bố sau trên tất cả các lựa chọn có thể có của trọng lượng. Cả hồi quy lasso và hồi quy đều tương đương với ước lượng MAP sau khi đặt ưu tiên trên các trọng số (lasso sử dụng hồi quy Laplacian trước và hồi quy sườn sử dụng Gaussian trước). Một hậu thế hẹp hơn tương ứng với hạn chế lớn hơn và ít phức tạp hơn, bởi vì mật độ sau cao được trao cho một tập các tham số nhỏ hơn. Ví dụ, nhân hàm khả năng với một Gaussian hẹp trước (tương ứng với một hình phạt sườn núi lớn) tạo ra một hậu thế hẹp hơn.

Một trong những lý do chính để áp đặt các ràng buộc / linh mục là việc chọn mô hình tối ưu từ một gia đình hạn chế hơn sẽ ít có khả năng phù hợp hơn so với việc chọn nó từ một gia đình ít hạn chế hơn. Điều này là do gia đình ít bị hạn chế hơn trong việc cung cấp nhiều cách hơn để phù hợp với dữ liệu và ngày càng có nhiều khả năng một trong số họ có thể điều chỉnh các dao động ngẫu nhiên trong tập huấn luyện. Đối với một điều trị chính thức hơn, xem sự đánh đổi sai lệch . Điều này không nhất thiết có nghĩa là chọn một mô hình từ một gia đình hạn chế hơn sẽ hoạt động tốt. Để có được hiệu suất tốt đòi hỏi gia đình bị hạn chế thực sự chứa các mô hình tốt. Điều này có nghĩa là chúng ta phải chọn một ưu tiên / ràng buộc phù hợp với vấn đề cụ thể.


(+1) Ý tưởng chính trong việc trả lời các câu hỏi OP của anh ấy dường như là sự đánh đổi sai lệch thiên vị
user795305

1

Mặc dù câu hỏi yêu cầu một lời giải thích trực quan, nhưng thực sự có một dẫn xuất nghiêm ngặt của Lỗi bình phương trung bình (MSE) cho hồi quy sườn cho thấy rằng tồn tại các giá trị của đạt được MSE tốt hơn so với hồi quy tuyến tính.λ

Nhớ lại: Gọi công cụ ước tính của cho hồi quy sườn có tham số co rút là và xác định: .MSE(β^)=E[(β^β)(β^β)T] betaλM(λ)=MSE( ^ beta λ )βλ^βλM(λ)=MSE(βλ^)

Do đó là MSE của hồi quy tuyến tính.M(0)

Theo các ghi chú khóa học này, người ta có thể chỉ ra rằng:

M(0)M(λ)=λ(XTX+λI)1(2σ²I+λσ²(XTX)1λββT){(XTX+λI)1}T

Các thuật ngữ là xác định dương, nhưng, đối với , thuật ngữ ở giữa là tích cực là tốt. Đối với các giá trị này, chúng ta có , cho thấy hồi quy sườn làm giảm Lỗi bình phương trung bình.(XTX+λI)1λ<2σ2(βTβ)1M(0)>M(λ)


Mặc dù đại số là tốt, nhưng bạn không cần nó để đưa ra quan điểm của mình. Vì OLS áp đặt ràng buộc của không thiên vị và Hồi quy Ridge loại bỏ điều đó, nên nó không thể dẫn đến MSE lớn hơn OLS và sẽ chỉ đạt được cùng một MSE khi giải pháp của nó và giải pháp OLS giống hệt nhau: nếu không, nó phải có MSE nhỏ hơn.
whuber

@whuber Tôi không hiểu lý lẽ trong bình luận của bạn. Không ai có thể dễ dàng đưa ra một số công cụ ước tính ngu ngốc của bị sai lệch có MSE cao hơn công cụ ước tính OLS? β
amip

@Amoeba Vâng, tôi đoán có một sự tinh tế: Tôi mặc nhiên cho rằng tổn thất hồi quy Ridge cho vô hạn là ngang với mất OLS. Điều này ngụ ý rằng đối với nhỏ tùy ý phải có các giải pháp RR với MSE nhỏ hơn trừ khi OLS đã đạt được MSE không thiên vị nhỏ nhất . λλ
whuber

@whuber Thật vậy, rõ ràng là việc nới lỏng các ràng buộc, người ta chỉ có thể giảm MSE. Định lý này đảm bảo rằng chúng ta thực sự đạt được mức giảm này.
RUser4512
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.