Ý tưởng cơ bản khi sử dụng PCA làm công cụ để lựa chọn tính năng là chọn các biến theo độ lớn (từ lớn nhất đến nhỏ nhất trong các giá trị tuyệt đối) của các hệ số của chúng ( tải ). Bạn có thể nhớ lại rằng PCA tìm cách thay thế các biến (ít nhiều tương quan) bằng k < p kết hợp tuyến tính không tương quan (các phép chiếu) của các biến ban đầu. Hãy để chúng tôi bỏ qua làm thế nào để chọn một k tối ưu cho vấn đề trong tay. Các thành phần chính k được xếp hạng theo mức độ quan trọng thông qua phương sai được giải thích của chúng và mỗi biến đóng góp với mức độ khác nhau cho từng thành phần. Sử dụng tiêu chí phương sai lớn nhất sẽ giống với tính năng trích xuấtpk<pkk , trong đó thành phần chính được sử dụng làm tính năng mới, thay vì các biến ban đầu. Tuy nhiên, chúng ta có thể quyết định chỉ giữ thành phần đầu tiên và chọn các biến có hệ số tuyệt đối cao nhất; số j có thể dựa trên tỷ lệ của số lượng biến (ví dụ: chỉ giữ 10% số biến p hàng đầu ) hoặc mức cắt cố định (ví dụ: xem xét ngưỡng về các hệ số chuẩn hóa). Cách tiếp cận này có một số điểm tương đồng với toán tử Lasso trong hồi quy bị phạt (hay hồi quy PLS ). Không phải giá trị của j , cũng như số lượng thành phần cần giữ lại là những lựa chọn rõ ràng.j<pjpj
Vấn đề với việc sử dụng PCA là (1) các phép đo từ tất cả các biến ban đầu được sử dụng trong phép chiếu đến không gian chiều thấp hơn, (2) chỉ các mối quan hệ tuyến tính được xem xét và (3) các phương pháp dựa trên PCA hoặc SVD cũng vậy như các phương pháp sàng lọc đơn biến (kiểm tra t, tương quan, v.v.), không tính đến tính chất đa biến tiềm năng của cấu trúc dữ liệu (ví dụ: tương tác bậc cao hơn giữa các biến).
Về điểm 1, một số phương pháp sàng lọc phức tạp hơn đã được đề xuất, ví dụ như phân tích tính năng chính hoặc phương pháp từng bước, giống như phương pháp được sử dụng để ' cạo gen ' trong các nghiên cứu biểu hiện gen. Ngoài ra, PCA thưa thớt có thể được sử dụng để thực hiện giảm kích thước và lựa chọn biến dựa trên tải trọng biến kết quả. Về điểm 2, có thể sử dụng kernel PCA (sử dụng thủ thuật kernel ) nếu người ta cần nhúng các mối quan hệ phi tuyến tính vào một không gian chiều thấp hơn. Cây quyết định , hay tốt hơn là thuật toán rừng ngẫu nhiên , có thể giải quyết tốt hơn Điểm 3. Cái sau cho phép rút ra các biện pháp dựa trên Gini hoặc hoán vị có tầm quan trọng khác nhau .
Điểm cuối cùng: Nếu bạn có ý định thực hiện lựa chọn tính năng trước khi áp dụng mô hình phân loại hoặc hồi quy, hãy đảm bảo xác thực chéo toàn bộ quá trình (xem §7.10.2 của Yếu tố học thống kê , hoặc Ambroise và McLachlan, 2002 ).
Vì bạn có vẻ quan tâm đến giải pháp R, tôi khuyên bạn nên xem gói caret bao gồm rất nhiều chức năng tiện dụng để xử lý trước dữ liệu và lựa chọn biến trong bối cảnh phân loại hoặc hồi quy.