Trong Phương pháp thống kê trong Khoa học khí quyển , Daniel Wilks lưu ý rằng hồi quy tuyến tính nhiều có thể dẫn đến các vấn đề nếu có sự giao thoa rất mạnh giữa các yếu tố dự đoán (ấn bản thứ 3, trang 559-560):
Một bệnh lý có thể xảy ra trong hồi quy tuyến tính đa biến là một tập hợp các biến dự đoán có tương quan tương hỗ mạnh có thể dẫn đến việc tính toán mối quan hệ hồi quy không ổn định.
(...)
Sau đó, ông giới thiệu hồi quy thành phần chính:
Một cách tiếp cận để khắc phục vấn đề này là trước tiên chuyển đổi các yếu tố dự đoán thành các thành phần chính của chúng, các mối tương quan giữa chúng bằng không.
Càng xa càng tốt. Nhưng tiếp theo, anh ta đưa ra một số tuyên bố mà anh ta không giải thích (hoặc ít nhất là không đủ chi tiết để tôi hiểu):
Nếu tất cả các thành phần chính được giữ lại trong hồi quy thành phần chính, thì không có gì đạt được so với bình phương tối thiểu thông thường phù hợp với bộ dự đoán đầy đủ.
(..) và:
Có thể kiểm tra lại hồi quy thành phần chính theo các yếu tố dự đoán ban đầu, nhưng nói chung, kết quả sẽ liên quan đến tất cả các biến dự đoán ban đầu ngay cả khi chỉ sử dụng một hoặc một vài yếu tố dự đoán thành phần chính. Hồi quy hoàn nguyên này sẽ bị sai lệch, mặc dù thường phương sai nhỏ hơn nhiều, dẫn đến tổng thể MSE nhỏ hơn.
Tôi không hiểu hai điểm này.
Tất nhiên, nếu tất cả các thành phần chính được giữ lại, chúng tôi sử dụng thông tin giống như khi chúng tôi sử dụng các yếu tố dự đoán trong không gian ban đầu của chúng. Tuy nhiên, vấn đề tương quan lẫn nhau được loại bỏ bằng cách làm việc trong không gian thành phần chính. Chúng ta có thể vẫn còn thừa, nhưng đó có phải là vấn đề duy nhất? Tại sao không có gì đạt được?
Thứ hai, ngay cả khi chúng ta cắt ngắn các thành phần chính (có lẽ để giảm nhiễu và / hoặc để ngăn chặn quá mức), tại sao và làm thế nào điều này dẫn đến hồi quy hoàn nguyên sai lệch? Xu hướng theo cách nào?
Nguồn sách: Daniel S. Wilks, Phương pháp thống kê trong khoa học khí quyển, ấn bản thứ ba, 2011. Tập địa vật lý quốc tế Tập 100, Nhà xuất bản học thuật.