1. Hồi quy thứ hạng giảm (RRR) là gì?
Xem xét đa biến hồi quy tuyến tính, tức là hồi quy với các biến độc lập và biến phụ thuộc. Đặt và là bộ dự báo trung tâm ( ) và bộ dữ liệu phản hồi ( ). Sau đó, hồi quy bình phương nhỏ nhất bình phương (OLS) có thể được xác định là tối thiểu hóa hàm chi phí sau:q X Y n × p n × qpqXYn×pn×q
L=∥Y−XB∥2,
Trong đó là ma trận của trọng số hồi quy. Giải pháp của nó được đưa ra bởi và thật dễ dàng để thấy rằng nó tương đương với việc thực hiện hồi quy OLS riêng biệt, một cho mỗi biến phụ thuộc.Bp×q
B^OLS=(X⊤X)−1X⊤Y,
q
Hồi quy giảm rank giới thiệu một hạn chế thứ hạng trên , cụ thể là nên được giảm thiểu với , nơi là tối đa cho phép cấp bậc .BLrank(B)≤rrB
2. Làm thế nào để có được giải pháp RRR?
Nó chỉ ra rằng RRR có thể được chọn là một vấn đề eigenvector. Thật vậy, bằng cách sử dụng thực tế rằng OLS về cơ bản là phép chiếu trực giao trên không gian cột của , chúng ta có thể viết lại thànhThuật ngữ đầu tiên không phụ thuộc vào và thuật ngữ thứ hai có thể được giảm thiểu bằng SVD / PCA của các giá trị được trang bị .XL
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2.
BY^=XB^OLS
Cụ thể, nếu là trục chính đầu tiên của , thìUrrY^
B^RRR=B^OLSUrU⊤r.
3. RRR tốt cho cái gì?
Có thể có hai lý do để sử dụng RRR.
Đầu tiên, người ta có thể sử dụng nó cho mục đích chính quy. Tương tự như hồi quy sườn núi (RR), Lasso, vv RRR giới thiệu một số "co rút" hình phạt trên . Thứ hạng tối ưu có thể được tìm thấy thông qua xác nhận chéo. Theo kinh nghiệm của tôi, RRR dễ dàng vượt trội hơn OLS nhưng có xu hướng thua RR. Tuy nhiên, RRR + RR có thể thực hiện (hơi) tốt hơn RR một mình.Br
Thứ hai, người ta có thể sử dụng nó như một phương pháp khai thác dữ liệu / giảm kích thước. Nếu chúng ta có một loạt các biến dự đoán và một loạt các biến phụ thuộc, thì RRR sẽ xây dựng "các yếu tố tiềm ẩn" trong không gian dự đoán, công việc tốt nhất để giải thích phương sai của DV. Sau đó, người ta có thể cố gắng diễn giải các yếu tố tiềm ẩn này, vẽ đồ thị cho chúng, v.v. Theo tôi biết, điều này được thực hiện thường xuyên trong sinh thái học, nơi RRR được gọi là phân tích dự phòng và là một ví dụ về những gì họ gọi là phương pháp phong chức ( xem câu trả lời của @ GavinSimpson tại đây ).
4. Mối quan hệ với các phương pháp giảm kích thước khác
RRR được kết nối chặt chẽ với các phương pháp giảm kích thước khác, chẳng hạn như CCA và PLS. Tôi đã trình bày nó một chút trong câu trả lời của tôi về Mối liên hệ giữa bình phương nhỏ nhất một phần, hồi quy thứ hạng giảm và hồi quy thành phần chính là gì?
if và là bộ dự đoán trung tâm ( ) và bộ dữ liệu phản hồi ( ) và nếu chúng ta tìm cặp trục đầu tiên, cho và cho , sau đó các phương thức này tối đa hóa các đại lượng sau:XYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
Xem ở đó để biết thêm chi tiết.
Xem Torre, 2009, Khung tối thiểu cho phân tích thành phần để xử lý chi tiết cách thức hầu hết các phương pháp đa biến tuyến tính phổ biến (ví dụ PCA, CCA, LDA, - nhưng không phải là PLS!) Có thể được xem là RRR.
5. Tại sao phần này trong Hastie et al. khó hiểu quá
Hastie et al. sử dụng thuật ngữ RRR để chỉ một điều hơi khác! Thay vì sử dụng hàm mất họ sử dụng như có thể thấy trong công thức 3.68 của họ. Điều này đưa một nhân tố whitening vào hàm mất, về cơ bản làm trắng các biến phụ thuộc. Nếu bạn nhìn vào sự so sánh giữa CCA và RRR ở trên, bạn sẽ nhận thấy rằng nếu được làm trắng thì sự khác biệt sẽ biến mất. Vì vậy, những gì Hastie et al. gọi RRR thực sự là CCA ngụy trang (và thực tế, xem 3,69 của họ).
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
Không ai trong số đó được giải thích chính xác trong phần này, do đó nhầm lẫn.
Xem câu trả lời của tôi về Hướng dẫn thân thiện hoặc giới thiệu về hồi quy thứ hạng giảm để đọc thêm.