Câu trả lời:
LASSO (Toán tử thu nhỏ và chọn lọc tối thiểu) là một phương pháp hồi quy liên quan đến việc xử phạt kích thước tuyệt đối của các hệ số hồi quy.
Bằng cách xử phạt (hoặc tương đương ràng buộc tổng các giá trị tuyệt đối của các ước tính), bạn sẽ gặp phải tình huống trong đó một số ước tính tham số có thể chính xác bằng không. Hình phạt được áp dụng càng lớn, ước tính càng bị thu hẹp về không.
Điều này thuận tiện khi chúng ta muốn một số tính năng tự động / lựa chọn biến hoặc khi xử lý các yếu tố dự đoán tương quan cao, trong đó hồi quy tiêu chuẩn thường sẽ có các hệ số hồi quy 'quá lớn'.
https://web.stanford.edu/~hastie/ElemStatLearn/ (Tải xuống miễn phí) có một mô tả hay về LASSO và các phương pháp liên quan.
Hồi quy LASSO là một loại phân tích hồi quy trong đó cả lựa chọn và điều chỉnh biến xảy ra đồng thời. Phương pháp này sử dụng một hình phạt ảnh hưởng đến giá trị của các hệ số hồi quy. Khi hình phạt tăng nhiều hệ số trở thành số không và ngược lại. Nó sử dụng kỹ thuật chuẩn hóa L1 trong đó tham số điều chỉnh được sử dụng làm lượng co ngót. Khi điều chỉnh tham số tăng thì độ lệch tăng và khi giảm thì phương sai tăng. Nếu nó là hằng số thì không có hệ số nào bằng 0 và có xu hướng vô cùng thì tất cả các hệ số sẽ bằng không.
Trong hồi quy "bình thường" (OLS), mục tiêu là tối thiểu hóa tổng bình phương còn lại (RSS) để ước tính các hệ số
Trong trường hợp hồi quy LASSO, bạn ước tính các hệ số với cách tiếp cận hơi khác:
Phần mới được tô sáng màu đỏ, là tổng của các giá trị hệ số tuyệt đối bị phạt bởi , vì vậy kiểm soát lượng điều tiết (L1).
Lưu ý rằng nếu , nó sẽ dẫn đến các hệ số tương tự như hồi quy tuyến tính đơn giản. Công thức cho thấy rằng trong trường hợp LASSO cần cả hai, quy định RSS và L1 (phần màu đỏ mới) là tối thiểu. Nếu , hình phạt L1 màu đỏ ràng buộc kích thước của các hệ số để hệ số chỉ có thể tăng nếu điều này dẫn đến cùng một mức giảm RSS. Tổng quát hơn, cách duy nhất các hệ số có thể tăng là nếu chúng ta trải qua sự giảm tương đương trong tổng số bình phương còn lại (RSS). Do đó, bạn càng đặt cao hơncàng nhiều hình phạt được áp dụng cho các hệ số và nhỏ hơn sẽ là các hệ số, một số có thể trở thành số không. Điều đó có nghĩa là LASSO có thể dẫn đến các mô hình tuyệt vời bằng cách thực hiện lựa chọn tính năng và nó ngăn chặn mô hình quá mức. Điều đó nói rằng, bạn có thể sử dụng LASSO nếu bạn có nhiều tính năng và mục tiêu của bạn là dự đoán dữ liệu hơn là giải thích các hệ số của mô hình của bạn.