Làm thế nào để áp dụng hồi quy trên các thành phần chính để dự đoán một biến đầu ra?


9

Tôi đọc về những điều cơ bản của phép phân tích thành phần chính từ tutorial1 , link1link2 .

Tôi có bộ dữ liệu gồm 100 biến (bao gồm cả biến đầu ra Y), tôi muốn giảm các biến xuống 40 bằng PCA, và sau đó dự đoán biến Y bằng 40 biến đó.

Vấn đề 1: Sau khi nhận được các thành phần chính và chọn 40 thành phần đầu tiên, nếu tôi áp dụng hồi quy cho nó, tôi nhận được một số chức năng phù hợp với dữ liệu. Nhưng làm thế nào để dự đoán một số biến Y từ dữ liệu gốc? Để dự đoán biến YI có (100-1) biến ở đầu vào và làm cách nào để biết 40 biến nào được chọn trong số 100 biến ban đầu của tôi?

Vấn đề 2: Tôi thực hiện đảo ngược PCA và lấy lại dữ liệu từ 40 thành phần chính đó. Nhưng dữ liệu được thay đổi vì tôi chỉ chọn 40 thành phần đầu tiên. Liệu áp dụng hồi quy cho các dữ liệu này có ý nghĩa gì không?

Tôi sử dụng Matlab / Octave.


Để làm PCA, bạn sử dụng phần mềm hoặc chương trình nào? Ví dụ, trong SPSS, phân tích này có thể được thực hiện dễ dàng và bạn có thể đặt số lượng thành phần chính mà bạn muốn trích xuất và bạn có thể xem những thành phần nào được chọn trong đầu ra. Tất nhiên áp dụng hồi quy trong dữ liệu này có ý nghĩa vì PCA chỉ được sử dụng để giảm kích thước.
merveceng

1
Nếu bạn chỉ quan tâm đến việc đưa ra dự đoán, bạn nên biết rằng Hastie, Tibshirani và Friedman đề xuất hồi quy LASSO đối với hồi quy thành phần chính vì LASSO được cho là làm điều tương tự (cải thiện khả năng dự đoán bằng cách giảm số lượng biến trong mô hình), nhưng tốt hơn. LASSO hiện cũng có sẵn rộng rãi trong các gói thống kê.
Shadowtalker

@ssdecontrol: Do Hastie et al. đề nghị cụ thể lasso qua hồi quy thành phần chính? PCR liên kết chặt chẽ hơn với hồi quy sườn núi so với lasso: nó không áp đặt bất kỳ độ thưa thớt nào (nghĩa là không thực hiện lựa chọn tính năng, không giống như lasso), nó khá phạt tất cả các trọng số tương tự như sườn núi. Có lẽ họ khuyên dùng lưới đàn hồi qua PCR, nhưng đó là lasso cộng với sườn núi.
amip

1
@amoeba Mình vừa đi vừa kiểm tra PDF online. Hoặc là văn bản đã thay đổi, hoặc tôi đã hiểu nhầm lần đầu tiên tôi đọc nó. Kết luận không phải là "Lasso là vượt trội", mà là "PCR, PLS và hồi quy sườn có xu hướng hành xử tương tự", và sườn núi đó có thể tốt hơn vì nó liên tục. Cảm ơn đã giữ cho tôi trung thực!
Shadowtalker

Câu trả lời:


7

Bạn không chọn tập hợp con của các biến 99 (100-1) ban đầu của mình.

Mỗi thành phần chính là sự kết hợp tuyến tính của tất cả 99 biến dự đoán (biến x, IV, ...). Nếu bạn sử dụng 40 thành phần chính đầu tiên, thì mỗi thành phần này là một hàm của tất cả 99 biến dự đoán ban đầu. (Ít nhất là với PCA thông thường - có các phiên bản thưa thớt / thường xuyên như SPCA của Zou, Hastie và Tibshirani sẽ mang lại các thành phần dựa trên ít biến số hơn.)

Hãy xem xét trường hợp đơn giản của hai biến tương quan dương, để đơn giản chúng ta sẽ giả sử là biến bằng nhau. Sau đó, thành phần chính đầu tiên sẽ là bội số (phân số) của tổng của cả hai biến thể và thứ hai sẽ là bội số (phân số) của chênh lệch của hai biến thể; nếu cả hai không thay đổi bằng nhau, thành phần chính đầu tiên sẽ cân nhắc nhiều hơn một biến nặng hơn, nhưng nó vẫn sẽ liên quan đến cả hai.

yX

Sau đó, bạn sử dụng 40 biến mới của mình như thể chúng là các yếu tố dự đoán theo cách riêng của chúng, giống như bạn làm với bất kỳ vấn đề hồi quy nào. (Trong thực tế, có nhiều cách hiệu quả hơn để lấy ước tính, nhưng hãy để các khía cạnh tính toán sang một bên và chỉ giải quyết một ý tưởng cơ bản)

Đối với câu hỏi thứ hai của bạn, không rõ ý của bạn là gì khi "đảo ngược PCA".

XZ= =XWXn×99W99×4040y^= =Zβ^máy tính

y^= =Zβ^máy tính= =XWβ^máy tính= =Xβ^*β^*= =Wβ^máy tínhyX. Nó không giống như các hệ số bạn có được bằng cách ước tính hồi quy trên X gốc - tất nhiên là nó được chuẩn hóa bằng cách thực hiện PCA; mặc dù bạn nhận được hệ số cho từng chữ X ban đầu của mình theo cách này, chúng chỉ có df số lượng linh kiện bạn lắp.

Cũng xem Wikipedia về hồi quy thành phần chính .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.