Tôi đã có một ý tưởng về ưu và nhược điểm của hồi quy sườn và LASSO.
Đối với LASSO, thời hạn phạt L1 sẽ mang lại một vectơ hệ số thưa thớt, có thể được xem như một phương pháp lựa chọn tính năng. Tuy nhiên, có một số hạn chế đối với LASSO. Nếu các tính năng có tương quan cao, LASSO sẽ chỉ chọn một trong số chúng. Ngoài ra, đối với các vấn đề trong đó > , LASSO sẽ chọn tối đa tham số ( và là số lượng quan sát và tham số tương ứng). Những điều này làm cho LASSO theo kinh nghiệm là một phương pháp tối ưu về khả năng dự đoán so với hồi quy sườn núi.n n n p
Đối với hồi quy sườn, nó cung cấp khả năng dự đoán tốt hơn nói chung. Tuy nhiên, khả năng diễn giải của nó không tốt như LASSO.
Giải thích trên thường có thể được tìm thấy trong sách giáo khoa trong học máy / khai thác dữ liệu. Tuy nhiên, tôi vẫn còn bối rối về hai điều:
Nếu chúng ta bình thường hóa phạm vi tính năng (giả sử từ 0 đến 1 hoặc với giá trị trung bình bằng 0 và phương sai đơn vị) và chạy hồi quy sườn, chúng ta vẫn có thể có ý tưởng về tầm quan trọng của tính năng bằng cách sắp xếp các giá trị tuyệt đối của các hệ số (tính năng quan trọng nhất có giá trị tuyệt đối cao nhất của các hệ số). Mặc dù chúng tôi không chọn các tính năng một cách rõ ràng, khả năng giải nghĩa không bị mất khi sử dụng hồi quy sườn. Đồng thời, chúng ta vẫn có thể đạt được sức mạnh dự đoán cao. Vậy thì tại sao chúng ta cần LASSO? Am i thiếu cái gì ở đây?
LASSO có được ưa thích do tính chất lựa chọn của nó không? Theo hiểu biết của tôi, lý do tại sao chúng ta cần lựa chọn tính năng là khả năng khái quát hóa và dễ tính toán.
Để dễ tính toán, chúng tôi không muốn cung cấp tất cả 1 triệu tính năng cho mô hình của mình nếu chúng tôi đang thực hiện một số nhiệm vụ NLP, vì vậy trước tiên chúng tôi bỏ một số tính năng vô dụng để giảm chi phí tính toán. Tuy nhiên, đối với LASSO, chúng tôi chỉ có thể biết kết quả lựa chọn tính năng (vectơ thưa thớt) sau khi chúng tôi cung cấp tất cả dữ liệu vào mô hình của mình, vì vậy chúng tôi không được hưởng lợi từ LASSO về việc giảm chi phí tính toán. Chúng tôi chỉ có thể đưa ra dự đoán nhanh hơn một chút vì hiện tại chúng tôi chỉ cung cấp tập hợp con các tính năng (giả sử 500 trên 1 triệu) vào mô hình của chúng tôi để tạo kết quả dự đoán.
Nếu LASSO được ưa thích vì khả năng khái quát hóa, thì chúng ta cũng có thể đạt được mục tiêu tương tự bằng cách sử dụng hồi quy sườn (hoặc bất kỳ loại chính quy nào khác). Tại sao chúng ta cần LASSO (hoặc lưới đàn hồi) một lần nữa? Tại sao chúng ta không thể bám vào hồi quy sườn núi?
Ai đó có thể xin vui lòng làm sáng tỏ về điều này? Cảm ơn!