Những lợi thế của hồi quy từng bước là gì?


11

Tôi đang thử nghiệm hồi quy từng bước vì mục đích đa dạng trong cách tiếp cận vấn đề của tôi. Vì vậy, tôi có 2 câu hỏi:

  1. Những lợi thế của hồi quy từng bước là gì? Điểm mạnh cụ thể của nó là gì?

  2. Bạn nghĩ gì về phương pháp lai, nơi bạn sử dụng hồi quy từng bước để chọn các tính năng và sau đó áp dụng hồi quy thường xuyên kết hợp tất cả các tính năng được chọn với nhau?

Câu trả lời:


15

Ưu điểm chính của hồi quy từng bước là tính toán hiệu quả. Tuy nhiên, hiệu suất của nó thường kém hơn các phương pháp thay thế. Vấn đề là nó quá tham lam. Bằng cách lựa chọn khó khăn cho bộ hồi quy tiếp theo và 'đóng băng' trọng lượng, nó đưa ra các lựa chọn tối ưu cục bộ ở mỗi bước, nhưng nói chung là tối ưu. Và, nó không thể quay lại để xem xét lại các lựa chọn trong quá khứ của nó.

Theo như tôi biết, hồi quy từng bước thường không được ưa chuộng so với hồi quy chính quy (LASSO), có xu hướng tạo ra các giải pháp tốt hơn.l1

Tibshirani (1996) . Thu hẹp hồi quy và chọn lọc qua phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình

LASSO xử phạt định mức của các trọng số, điều này gây ra sự thưa thớt trong giải pháp (nhiều trọng số bị buộc về 0). Điều này thực hiện lựa chọn biến (các biến 'có liên quan' được phép có trọng số khác không). Mức độ thưa thớt được kiểm soát bởi thuật ngữ hình phạt và một số thủ tục phải được sử dụng để chọn nó (xác nhận chéo là một lựa chọn phổ biến). LASSO chuyên sâu về mặt tính toán hơn so với hồi quy từng bước, nhưng vẫn tồn tại một số thuật toán hiệu quả. Một số ví dụ là hồi quy góc nhỏ nhất ( LARS ) và cách tiếp cận dựa trên gốc tọa độ .l1

Một cách tiếp cận tương tự với những gì bạn đề xuất trong (2) được gọi là theo đuổi kết hợp trực giao. Đó là một khái quát của việc theo đuổi phù hợp, là tên của hồi quy từng bước trong tài liệu xử lý tín hiệu.

Pati và cộng sự. (1993) . Theo đuổi kết hợp trực giao: xấp xỉ hàm đệ quy với các ứng dụng để phân tách sóng con

Trên mỗi lần lặp, bộ hồi quy tốt nhất tiếp theo được thêm vào bộ hoạt động. Sau đó, các trọng số cho tất cả các biến hồi quy trong bộ hoạt động được tính toán lại. Do bước tiến lại, cách tiếp cận này ít tham lam hơn (và có hiệu suất tốt hơn) so với theo đuổi kết hợp thông thường / hồi quy từng bước. Nhưng, nó vẫn sử dụng một heuristic tìm kiếm tham lam.

Tất cả các cách tiếp cận này (hồi quy từng bước, LASSO và theo đuổi kết hợp trực giao) có thể được coi là xấp xỉ của vấn đề sau:

minwyXw22s.t. w0c

Trong ngữ cảnh hồi quy, các cột của tương ứng với các biến độc lập và với biến phụ thuộc. Trong xử lý tín hiệu, các cột của tương ứng với các hàm cơ sở và là tín hiệu gần đúng. Mục đích là để tìm thấy một tập thưa thớt của trọng lượng mà cho là tốt nhất (bình phương nhỏ nhất) xấp xỉ của . Các tiêu chỉ đơn giản là đếm số khác không mục trong . Thật không may, vấn đề này là NP-hard, vì vậy các thuật toán gần đúng phải được sử dụng trong thực tế. Hồi quy từng bước và theo đuổi kết hợp trực giao cố gắng giải quyết vấn đề bằng cách sử dụng chiến lược tìm kiếm tham lam. LASSO cải tổ vấn đề bằng cách sử dụng thư giãnXyXywyl0wl0 định mức theo định mức . Ở đây, vấn đề tối ưu hóa trở nên lồi (và do đó có thể kéo được). Và, mặc dù vấn đề không còn giống nhau, giải pháp cũng tương tự. Nếu tôi nhớ lại một cách chính xác, cả việc theo đuổi kết hợp LASSO và trực giao đã được chứng minh là sẽ phục hồi giải pháp chính xác trong một số điều kiện nhất định.l1


8

Lựa chọn từng bước nói chung không phải là một ý tưởng tốt. Để hiểu lý do tại sao, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: Thuật toán để chọn mô hình tự động .

Theo như lợi thế, trong những ngày khi tìm kiếm thông qua tất cả các kết hợp tính năng có thể quá phức tạp để máy tính xử lý, lựa chọn từng bước tiết kiệm thời gian và có thể điều chỉnh được. Tuy nhiên, lưu ý rằng các vấn đề được thảo luận trong câu trả lời được liên kết của tôi ở trên chỉ áp dụng cho hồi quy 'tập hợp con tốt nhất', do đó, từng bước không tạo ra giải pháp tốt, chỉ là giải pháp xấu nhanh hơn.

Ý tưởng của bạn về cách tiếp cận lai sẽ ổn, miễn là mô hình thứ hai (với các tính năng được chọn) được trang bị trên bộ dữ liệu mới .


Về cái mà OP gọi là "cách tiếp cận lai" (không hoàn toàn chắc chắn tại sao nó là hybrid), bạn có nghĩa là nó ổn theo nghĩa là các ước tính của các hệ số của mô hình trên bộ dữ liệu mới thứ hai sẽ ổn (trong khi sai lệch và có vấn đề về dữ liệu gốc), miễn là tập dữ liệu mới đủ lớn? Tất nhiên nó có khả năng là một mô hình kém, bởi vì nó được chọn theo cách xấu trong tập dữ liệu đầu tiên, đơn giản là hệ số của nó sẽ được ước tính trong một tập dữ liệu ít có vấn đề hơn.
Bjorn

Ngoài ra, thường vẫn không thể xem qua tất cả các kết hợp có thể, bởi vì số lượng biến số khác nhau mà chúng tôi có dữ liệu tăng nhanh hơn cả sức mạnh tính toán và mọi người ngày càng có nhiều ý tưởng về những gì cần đưa vào mô hình của họ.
Stephan Kolassa

Đọc chủ đề đó tiếp tục không hữu ích.
Mox

2

Tôi vừa thực hiện một tìm kiếm google cho hồi quy Stepwise là gì. Tôi không chắc mình có hiểu nó không, nhưng đây là suy nghĩ đầu tiên của tôi

  • Thật tham lam nên nó không thể tạo ra giải pháp tốt như Lasso làm. Tôi thích Lasso
  • Nó đơn giản, dễ sử dụng, dễ viết mã
  • Sau khi bạn sử dụng hồi quy Stepwise, bạn đã kết thúc với một mô hình được đào tạo sử dụng các tính năng được chọn, do đó bạn không cần sử dụng một bước hồi quy khác như bạn đã đề cập như phương pháp lai
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.