Làm thế nào để quyết định sử dụng chính quy (L1 hoặc L2)?
Mục tiêu của bạn là gì? Cả hai đều có thể cải thiện tổng quát hóa mô hình bằng cách xử phạt các hệ số, vì các tính năng có mối quan hệ ngược chiều với kết quả có thể "bù đắp" lẫn nhau (một giá trị dương lớn được đối trọng bởi một giá trị âm lớn). Điều này có thể phát sinh khi có các tính năng cộng tuyến. Những thay đổi nhỏ trong dữ liệu có thể dẫn đến các ước tính tham số khác nhau đáng kể (ước tính phương sai cao). Hình phạt có thể hạn chế cả hai hệ số nhỏ hơn. (Hastie et al, Các yếu tố của học thống kê , ấn bản 2, trang 63)
Những ưu và nhược điểm của mỗi lần chuẩn hóa L1 / L2 là gì?
Chính quy hóa L1 có thể giải quyết vấn đề đa cộng tuyến bằng cách ràng buộc định mức hệ số và ghim một số giá trị hệ số thành 0. Tính toán, hồi quy Lasso (hồi quy với hình phạt L1) là một chương trình bậc hai cần một số công cụ đặc biệt để giải quyết. Khi bạn có nhiều tính năng hơn các quan sát , lasso sẽ giữ tối đa hệ số khác khôngNN . Tùy thuộc vào ngữ cảnh, đó có thể không phải là những gì bạn muốn.
Chính quy hóa L1 đôi khi được sử dụng như một phương pháp lựa chọn tính năng. Giả sử bạn có một số loại giới hạn cứng về số lượng tính năng bạn có thể sử dụng (vì bộ sưu tập dữ liệu cho tất cả các tính năng đắt tiền hoặc bạn có các ràng buộc kỹ thuật chặt chẽ về số lượng giá trị bạn có thể lưu trữ, v.v.). Bạn có thể thử điều chỉnh hình phạt L1 để đạt được số lượng tính năng khác không mong muốn của mình.
Chuẩn hóa L2 có thể giải quyết vấn đề đa cộng đồng bằng cách ràng buộc định mức hệ số và giữ tất cả các biến. Không thể ước tính một hệ số chính xác bằng 0. Điều này không nhất thiết là một nhược điểm, trừ khi một vectơ hệ số thưa thớt rất quan trọng vì một số lý do.
Trong cài đặt hồi quy, đó là giải pháp "cổ điển" cho vấn đề ước tính hồi quy với nhiều tính năng hơn các quan sát. Chính quy hóa L2 có thể ước tính một hệ số cho từng tính năng ngay cả khi có nhiều tính năng hơn các quan sát (thực sự, đây là động lực ban đầu cho "hồi quy sườn").
Thay thế, lưới đàn hồi cho phép chuẩn hóa L1 và L2 như các trường hợp đặc biệt. Một trường hợp sử dụng điển hình trong một nhà khoa học dữ liệu trong ngành là bạn chỉ muốn chọn mô hình tốt nhất, nhưng không nhất thiết phải quan tâm nếu nó bị phạt khi sử dụng L1, L2 hoặc cả hai. Lưới đàn hồi là tốt đẹp trong những tình huống như thế này.
Có nên đề xuất lựa chọn tính năng đầu tiên bằng L1 và sau đó áp dụng L2 cho các biến được chọn này không?
Tôi không quen thuộc với một ấn phẩm đề xuất một đường ống L1-then-L2, nhưng đây có lẽ chỉ là sự thiếu hiểu biết về phía tôi. Dường như không có gì sai với nó. Tôi sẽ tiến hành đánh giá tài liệu.
Một vài ví dụ về các đường ống "theo giai đoạn" tương tự tồn tại. Một là "Lasso thư giãn", áp dụng hồi quy lasso hai lần , một lần để chọn xuống từ một nhóm lớn thành một nhóm nhỏ các tính năng và thứ hai để ước tính các hệ số để sử dụng trong mô hình. Điều này sử dụng xác nhận chéo ở mỗi bước để chọn độ lớn của hình phạt. Lý do là trong bước đầu tiên, bạn xác nhận chéo và có thể sẽ chọn một hình phạt lớn để sàng lọc các dự đoán không liên quan; trong bước thứ hai, bạn xác nhận chéo và có thể sẽ chọn một hình phạt nhỏ hơn (và do đó hệ số lớn hơn). Điều này được đề cập ngắn gọn trong Các yếu tố của học thống kê với trích dẫn từ Nicolai Meinshausen ("Thư giãn Lasso". Phân tích dữ liệu và thống kê tính toán Tập 52, Số 1, ngày 15 tháng 9 năm 2007, trang 374-393).
Người dùng @amoeba cũng đề xuất một đường ống L1-then-OLS; điều này có thể tốt bởi vì nó chỉ có 1 siêu tham số cho độ lớn của hình phạt L1, do đó sẽ cần ít sự thay đổi hơn.
Một vấn đề có thể phát sinh với bất kỳ đường ống phân tích "theo giai đoạn" nào thực hiện một số bước và sau đó là một số bước khác là không có "khả năng hiển thị" giữa các thuật toán khác nhau, do đó, một quá trình sẽ thừa hưởng bất kỳ dữ liệu nào xảy ra ở các bước trước đó. Hiệu ứng này không đáng kể; mô hình kém quan niệm có thể dẫn đến mô hình rác.
Một cách để chống lại các tác dụng phụ rình mò dữ liệu là xác thực chéo tất cả các lựa chọn của bạn. Tuy nhiên, chi phí tính toán tăng có thể chứng minh sự cấm đoán.