Bạn không chọn tập hợp con của các biến 99 (100-1) ban đầu của mình.
Mỗi thành phần chính là sự kết hợp tuyến tính của tất cả 99 biến dự đoán (biến x, IV, ...). Nếu bạn sử dụng 40 thành phần chính đầu tiên, thì mỗi thành phần này là một hàm của tất cả 99 biến dự đoán ban đầu. (Ít nhất là với PCA thông thường - có các phiên bản thưa thớt / thường xuyên như SPCA của Zou, Hastie và Tibshirani sẽ mang lại các thành phần dựa trên ít biến số hơn.)
Hãy xem xét trường hợp đơn giản của hai biến tương quan dương, để đơn giản chúng ta sẽ giả sử là biến bằng nhau. Sau đó, thành phần chính đầu tiên sẽ là bội số (phân số) của tổng của cả hai biến thể và thứ hai sẽ là bội số (phân số) của chênh lệch của hai biến thể; nếu cả hai không thay đổi bằng nhau, thành phần chính đầu tiên sẽ cân nhắc nhiều hơn một biến nặng hơn, nhưng nó vẫn sẽ liên quan đến cả hai.
yX
Sau đó, bạn sử dụng 40 biến mới của mình như thể chúng là các yếu tố dự đoán theo cách riêng của chúng, giống như bạn làm với bất kỳ vấn đề hồi quy nào. (Trong thực tế, có nhiều cách hiệu quả hơn để lấy ước tính, nhưng hãy để các khía cạnh tính toán sang một bên và chỉ giải quyết một ý tưởng cơ bản)
Đối với câu hỏi thứ hai của bạn, không rõ ý của bạn là gì khi "đảo ngược PCA".
XZ= XWXn × 99W99 × 4040y^= Zβ^máy tính
y^= Zβ^máy tính= XWβ^máy tính= Xβ^*β^*= Wβ^máy tínhyX. Nó không giống như các hệ số bạn có được bằng cách ước tính hồi quy trên X gốc - tất nhiên là nó được chuẩn hóa bằng cách thực hiện PCA; mặc dù bạn nhận được hệ số cho từng chữ X ban đầu của mình theo cách này, chúng chỉ có df số lượng linh kiện bạn lắp.
Cũng xem Wikipedia về hồi quy thành phần chính .