Nếu chỉ dự đoán là quan tâm, tại sao sử dụng lasso trên sườn núi?

Trên trang 223 trong phần Giới thiệu về Học thống kê , các tác giả tóm tắt sự khác biệt giữa hồi quy sườn và lasso. Họ cung cấp một ví dụ (Hình 6.9) khi "Lasso có xu hướng vượt trội hơn so với hồi quy sườn núi về độ lệch, phương sai và MSE".

Tôi hiểu tại sao lasso có thể được mong muốn: nó dẫn đến các giải pháp thưa thớt vì nó thu nhỏ nhiều hệ số về 0, dẫn đến các mô hình đơn giản và dễ hiểu. Nhưng tôi không hiểu làm thế nào nó có thể vượt trội hơn khi chỉ dự đoán được quan tâm (ví dụ như làm thế nào để có được MSE thấp hơn đáng kể trong ví dụ?).

Với sườn núi, nếu nhiều yếu tố dự đoán hầu như không ảnh hưởng đến phản ứng (với một số yếu tố dự đoán có ảnh hưởng lớn), thì hệ số của chúng chỉ đơn giản là bị thu nhỏ lại thành một con số rất gần với 0 ... dẫn đến một thứ rất giống với Lasso ? Vậy tại sao mô hình cuối cùng có hiệu suất kém hơn Lasso?

— Oliver Angelil
nguồn

stats.stackexchange.com/questions/866/ khăn

— Laksan Nathan

Tôi thấy liên kết đó. Nó không trả lời câu hỏi.

— Oliver Angelil

Câu trả lời:

Bạn có quyền hỏi câu hỏi này. Nói chung, khi sử dụng quy tắc chấm điểm chính xác phù hợp (ví dụ: lỗi dự đoán bình phương trung bình), hồi quy sườn sẽ vượt trội hơn lasso. Lasso dành một số thông tin để cố gắng tìm ra các dự đoán "đúng" và thậm chí còn không tuyệt vời khi làm điều đó trong nhiều trường hợp. Hiệu suất tương đối của cả hai sẽ phụ thuộc vào sự phân phối các hệ số hồi quy thực. Nếu bạn có một phần nhỏ các hệ số khác không trong thực tế, lasso có thể hoạt động tốt hơn. Cá nhân tôi sử dụng sườn núi hầu như mọi lúc khi quan tâm đến độ chính xác dự đoán.

— Frank Mitchell
nguồn

Có những trường hợp khi bạn không quan tâm đến độ chính xác dự đoán?

— Walrus the Cat

@WalrustheCat Một số người, âm thanh nổi - thường đến từ Stanford, ủng hộ việc sử dụng Lasso trong lựa chọn biến số chiều cao. Có lẽ, Frank có nghĩa là "... chủ yếu quan tâm đến độ chính xác dự đoán" chứ không chỉ đơn giản là "... quan tâm đến độ chính xác dự đoán", tuy nhiên, theo tôi, sự khác biệt giữa hai yếu tố này là hữu ích.

— John Madden

Tôi chưa bao giờ hiểu cách tiếp cận "chính quy hóa như giảm chiều". Bạn có thể thực hiện giảm kích thước, thông qua chính quy hóa Lasso hoặc không, sau đó sử dụng chức năng chính quy hóa tốt nhất cho vấn đề ban đầu của bạn trên các tính năng kết quả. Nhưng tôi lạc đề.

— Walrus the Cat

Từ "Nói chung [...] hồi quy sườn núi sẽ vượt trội hơn Lasso" và "Nếu bạn có một phần nhỏ các hệ số khác không trong thực tế, lasso có thể thực hiện tốt hơn" dường như trong hầu hết các vấn đề dự đoán, sự thật mặt đất không phải là thưa thớt. Đây có phải là những gì bạn đang nói?

— amip nói phục hồi Monica

Vâng, chủ yếu. Nếu bạn biết sự thật cơ bản "trong phân phối", bạn sẽ tạo phân phối trước Bayes cho các hệ số hồi quy chưa biết sẽ mang lại cho bạn kết quả tối ưu. Và ngay cả khi, giả sử, 3/4 trong số các dự đoán có hiệu ứng chính xác bằng 0, sườn núi có khả năng cạnh tranh với lasso.

— Frank Harrell

Tôi nghĩ rằng thiết lập cụ thể của ví dụ bạn tham khảo là chìa khóa để hiểu lý do tại sao lasso vượt trội hơn sườn núi: chỉ có 2 trong số 45 dự đoán là thực sự có liên quan.

Điều này giáp với một trường hợp bệnh lý: lasso, đặc biệt nhằm giảm xuống mức 0 dễ dàng, thực hiện chính xác như dự định, trong khi sườn núi sẽ phải đối phó với một số lượng lớn các thuật ngữ vô dụng (thậm chí hiệu ứng của chúng bị giảm xuống bằng 0, nó vẫn là một hiệu ứng khác không).

— mbrig
nguồn