Nếu trong kernel PCA tôi chọn kernel tuyến tính , thì kết quả sẽ khác với PCA tuyến tính thông thường ? Là các giải pháp về cơ bản khác nhau hoặc một số quan hệ được xác định rõ tồn tại?
Nếu trong kernel PCA tôi chọn kernel tuyến tính , thì kết quả sẽ khác với PCA tuyến tính thông thường ? Là các giải pháp về cơ bản khác nhau hoặc một số quan hệ được xác định rõ tồn tại?
Câu trả lời:
Tóm tắt: PCA kernel với kernel tuyến tính hoàn toàn tương đương với PCA tiêu chuẩn.
Đặt là ma trận dữ liệu trung tâm có kích thước với các biến trong cột và điểm dữ liệu trong các hàng. Sau đó, ma trận hiệp phương sai được đưa ra bởi , các hàm riêng của nó là các trục chính và giá trị riêng là phương sai của PC. Đồng thời, người ta có thể xem xét cái gọi là ma trận Gram của kích thướcDễ dàng thấy rằng nó có cùng giá trị riêng (tức là phương sai PC) cho đến yếu tố và các hàm riêng của nó là các thành phần chính được chia tỷ lệ theo đơn vị định mức. N × D D N D × D X ⊤ X / ( n - 1 ) X X ⊤ N × N n - 1
Đây là PCA tiêu chuẩn. Bây giờ, trong kernel PCA, chúng tôi xem xét một số hàm ánh xạ mỗi điểm dữ liệu sang một không gian vectơ khác thường có kích thước lớn hơn , thậm chí có thể là vô hạn. Ý tưởng của PCA kernel là thực hiện PCA tiêu chuẩn trong không gian mới này.
Vì kích thước của không gian mới này rất lớn (hoặc vô hạn), nên khó có thể hoặc không thể tính được ma trận hiệp phương sai. Tuy nhiên, chúng ta có thể áp dụng cách tiếp cận thứ hai cho PCA đã nêu ở trên. Thật vậy, ma trận Gram vẫn sẽ có cùng kích thước N \ lần N có thể quản lý được . Các phần tử của ma trận này được đưa ra bởi , mà chúng ta sẽ gọi hàm kernel . Đây là những gì được gọi là thủ thuật kernel : người ta thực sự không cần phải tính , mà chỉ cần . Eigenvector của ma trận Gram này sẽ là thành phần chính trong không gian đích, là thành phần chúng ta quan tâm.
Câu trả lời cho câu hỏi của bạn bây giờ trở nên rõ ràng. Nếu , thì ma trận Gram hạt nhân giảm xuống còn bằng với ma trận Gram chuẩn và do đó các thành phần chính sẽ không thay đổi.X X ⊤
Một tài liệu tham khảo rất dễ đọc là Scholkopf B, Smola A và Müller KR, phân tích thành phần chính của Kernel, 1999 , và lưu ý rằng, ví dụ trong Hình 1, chúng đề cập rõ ràng đến PCA tiêu chuẩn như là một sản phẩm sử dụng dấu chấm làm hàm nhân:
Ngoài câu trả lời hay của amip, còn có một cách đơn giản hơn để thấy sự tương đương. Một lần nữa, hãy đặt là ma trận dữ liệu có kích thước với các biến trong các cột và điểm dữ liệu trong các hàng. Tiêu chuẩn PCA tương ứng với tham gia một phân hủy giá trị duy nhất của ma trận với các thành phần chính của . Phân rã giá trị số ít của hạt nhân tuyến tính có cùng các vectơ số ít bên trái và do đó, các thành phần chính giống nhau.N × D D N X = U Σ V ⊤ U X X X ⊤ = U Σ 2 U ⊤