Thuật toán hồi quy theo giai đoạn chuyển tiếp là gì?

Có lẽ chỉ là tôi mệt, nhưng tôi gặp khó khăn khi cố gắng hiểu thuật toán Hồi quy theo giai đoạn chuyển tiếp. Từ "Các yếu tố của học thống kê" trang 60:

Hồi quy theo giai đoạn chuyển tiếp (FS) thậm chí còn hạn chế hơn so với hồi quy từng bước. Nó bắt đầu như hồi quy theo từng bước, với một giao thoa bằng [giá trị trung bình của] y và các yếu tố dự đoán trung tâm với các hệ số ban đầu đều bằng 0.

Ở mỗi bước, thuật toán xác định biến tương quan nhiều nhất với phần dư hiện tại. Sau đó, nó tính toán hệ số hồi quy tuyến tính đơn giản của phần dư trên biến được chọn này, và sau đó thêm nó vào hệ số hiện tại cho biến đó. Điều này được tiếp tục cho đến khi không có biến nào có tương quan với phần dư, tức là bình phương nhỏ nhất khi N> p.

Vì vậy, đây có phải là thuật toán?:

b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
  b[index]=b[index]+regress(r,X[1..n][index])
  r=(y-X*b)
  index, maxCorr = max(transpose(r)*X)

Trong đó b là một vectơ cột của các hệ số, X là ma trận của các đầu vào và y là một vectơ cột của các đầu ra. Tức là y = X * b + lỗi.

Hỏi bởi vì thuật toán này chỉ cung cấp cho tôi một vài hệ số khác không trên tập dữ liệu mà tôi đang thử nghiệm (với ngưỡng = 0,0001) và độ chính xác dự đoán không tốt lắm.

regression algorithms feature-selection

— sinh vật
nguồn

Các tác giả của họ làm một công việc kém trong việc giải thích thuật toán trong cuốn sách của họ. Nếu bạn nhìn vào các phương trình 1.6 và 1.7 trong bài báo của họ , nó sẽ trở nên rõ ràng hơn. Bài viết có công thức hơi khác nhau (nó xây dựng phần dư chứ không phải vectơ hệ số), nhưng điểm quan trọng là nó đạt đến một bình phương nhỏ nhất phù hợp với các bước rất nhỏ (đây là lý do tại sao cuốn sách đề cập đến thuật toán có thể "nhiều hơn nữa hơn p bước "để kết thúc). Bạn có thể thay thế "hồi quy (...)" bằng một số nhỏ hoặc bạn có thể nhân nó với một số như 0,05. Chơi xung quanh với nó và xem những gì hoạt động.

Ngoài ra, ngưỡng của bạn có vẻ nhỏ. r '* X sẽ đưa ra các con số tỷ lệ thuận nhưng lớn hơn nhiều so với tương quan thực tế (ví dụ: đối với dữ liệu bệnh tiểu đường trong bài báo, các mối tương quan là ~ 70-900).

— Kevin
nguồn