Ưu điểm chính của hồi quy từng bước là tính toán hiệu quả. Tuy nhiên, hiệu suất của nó thường kém hơn các phương pháp thay thế. Vấn đề là nó quá tham lam. Bằng cách lựa chọn khó khăn cho bộ hồi quy tiếp theo và 'đóng băng' trọng lượng, nó đưa ra các lựa chọn tối ưu cục bộ ở mỗi bước, nhưng nói chung là tối ưu. Và, nó không thể quay lại để xem xét lại các lựa chọn trong quá khứ của nó.
Theo như tôi biết, hồi quy từng bước thường không được ưa chuộng so với hồi quy chính quy (LASSO), có xu hướng tạo ra các giải pháp tốt hơn.l1
Tibshirani (1996) . Thu hẹp hồi quy và chọn lọc qua phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình
LASSO xử phạt định mức của các trọng số, điều này gây ra sự thưa thớt trong giải pháp (nhiều trọng số bị buộc về 0). Điều này thực hiện lựa chọn biến (các biến 'có liên quan' được phép có trọng số khác không). Mức độ thưa thớt được kiểm soát bởi thuật ngữ hình phạt và một số thủ tục phải được sử dụng để chọn nó (xác nhận chéo là một lựa chọn phổ biến). LASSO chuyên sâu về mặt tính toán hơn so với hồi quy từng bước, nhưng vẫn tồn tại một số thuật toán hiệu quả. Một số ví dụ là hồi quy góc nhỏ nhất ( LARS ) và cách tiếp cận dựa trên gốc tọa độ .l1
Một cách tiếp cận tương tự với những gì bạn đề xuất trong (2) được gọi là theo đuổi kết hợp trực giao. Đó là một khái quát của việc theo đuổi phù hợp, là tên của hồi quy từng bước trong tài liệu xử lý tín hiệu.
Pati và cộng sự. (1993) . Theo đuổi kết hợp trực giao: xấp xỉ hàm đệ quy với các ứng dụng để phân tách sóng con
Trên mỗi lần lặp, bộ hồi quy tốt nhất tiếp theo được thêm vào bộ hoạt động. Sau đó, các trọng số cho tất cả các biến hồi quy trong bộ hoạt động được tính toán lại. Do bước tiến lại, cách tiếp cận này ít tham lam hơn (và có hiệu suất tốt hơn) so với theo đuổi kết hợp thông thường / hồi quy từng bước. Nhưng, nó vẫn sử dụng một heuristic tìm kiếm tham lam.
Tất cả các cách tiếp cận này (hồi quy từng bước, LASSO và theo đuổi kết hợp trực giao) có thể được coi là xấp xỉ của vấn đề sau:
minw∥y−Xw∥22s.t. ∥w∥0≤c
Trong ngữ cảnh hồi quy, các cột của tương ứng với các biến độc lập và với biến phụ thuộc. Trong xử lý tín hiệu, các cột của tương ứng với các hàm cơ sở và là tín hiệu gần đúng. Mục đích là để tìm thấy một tập thưa thớt của trọng lượng mà cho là tốt nhất (bình phương nhỏ nhất) xấp xỉ của . Các tiêu chỉ đơn giản là đếm số khác không mục trong . Thật không may, vấn đề này là NP-hard, vì vậy các thuật toán gần đúng phải được sử dụng trong thực tế. Hồi quy từng bước và theo đuổi kết hợp trực giao cố gắng giải quyết vấn đề bằng cách sử dụng chiến lược tìm kiếm tham lam. LASSO cải tổ vấn đề bằng cách sử dụng thư giãnXyXywyl0wl0 định mức theo định mức . Ở đây, vấn đề tối ưu hóa trở nên lồi (và do đó có thể kéo được). Và, mặc dù vấn đề không còn giống nhau, giải pháp cũng tương tự. Nếu tôi nhớ lại một cách chính xác, cả việc theo đuổi kết hợp LASSO và trực giao đã được chứng minh là sẽ phục hồi giải pháp chính xác trong một số điều kiện nhất định.l1