Phân tích thành phần chính có thể sử dụng phân tách ma trận, nhưng đó chỉ là một công cụ để đạt được điều đó.
Làm thế nào bạn sẽ tìm thấy các thành phần chính mà không sử dụng đại số ma trận?
Hàm mục tiêu (mục tiêu) là gì và các ràng buộc là gì?
Phân tích thành phần chính có thể sử dụng phân tách ma trận, nhưng đó chỉ là một công cụ để đạt được điều đó.
Làm thế nào bạn sẽ tìm thấy các thành phần chính mà không sử dụng đại số ma trận?
Hàm mục tiêu (mục tiêu) là gì và các ràng buộc là gì?
Câu trả lời:
Không cần cố gắng đưa ra một đoạn mồi đầy đủ trên PCA, từ quan điểm tối ưu hóa, chức năng mục tiêu chính là thương số Rayleigh . Ma trận mà số liệu trong thương số là (một số bội số) ma trận hiệp phương sai mẫu trong đó mỗi là một vector của tính năng và là ma trận như vậy mà thứ hàng là .
PCA tìm cách giải quyết một chuỗi các vấn đề tối ưu hóa. Đầu tiên trong chuỗi là vấn đề không bị ràng buộc
Vì, vấn đề không bị ràng buộc ở trên tương đương với vấn đề bị ràng buộc
Đây là nơi đại số ma trận xuất hiện. Vì là ma trận bán nguyệt dương đối xứng (bằng cách xây dựng!), Nó có phân rã giá trị riêng có dạng trong đó là một Ma trận trực giao (vì vậy ) và là ma trận đường chéo với các mục không âm sao cho .
Do đó, . Vì bị ràng buộc trong bài toán có định mức là một, nên kể từ , nhờ là trực giao.
Nhưng, nếu chúng ta muốn tối đa hóa số lượng theo các ràng buộc mà , thì cách tốt nhất chúng ta có thể làm là đặt , nghĩa là, và cho .
Bây giờ, sao lưu tương ứng , đó là những gì chúng tôi đã tìm kiếm ở vị trí đầu tiên, chúng tôi nhận được rằng trong đó biểu thị cột đầu tiên của , nghĩa là eigenvector tương ứng với eigenvalue lớn nhất của . Giá trị của hàm mục tiêu sau đó cũng dễ dàng được nhìn thấy là .
Các vectơ thành phần chính còn lại sau đó được tìm thấy bằng cách giải quyết chuỗi (được lập chỉ mục bởi ) các vấn đề tối ưu hóa Vì vậy, vấn đề là như nhau, ngoại trừ việc chúng ta thêm các ràng buộc bổ sung rằng giải pháp phải trực giao với tất cả các giải pháp trước đó trong chuỗi. Nó không phải là khó khăn để mở rộng tranh luận trên quy nạp để chứng minh rằng các giải pháp của thứ vấn đề là, quả thật vậy, , các th eigenvector của .
Giải pháp PCA cũng thường được thể hiện dưới dạng phân tách giá trị số ít của . Để xem lý do tại sao, chúng ta hãy . Khi đó và vì vậy (nói đúng ra, lên tới ký lật) và .
Các thành phần chính được tìm thấy bằng cách chiếu lên các vectơ thành phần chính. Từ công thức SVD vừa được đưa ra, dễ dàng nhận thấy rằng
Sự đơn giản của việc biểu diễn cả vectơ thành phần chính và chính các thành phần chính về mặt SVD của ma trận các tính năng là một lý do khiến các tính năng SVD nổi bật trong một số phương pháp điều trị PCA.
Giải pháp được trình bày bởi hồng y tập trung vào ma trận hiệp phương sai mẫu. Một điểm khởi đầu khác là lỗi tái cấu trúc dữ liệu bởi một siêu phẳng q -chiều. Nếu p chiều điểm dữ liệu là mục tiêu là để giải quyết
cho matrix với các cột trực giao và . Điều này cho phép các bậc tốt nhất q -reconstruction được đo bằng tiên đề Ơclit, và các cột của giải pháp là người đầu tiên q vectơ thành phần chính.
Đối với cố định , giải pháp cho và (đây là hồi quy) là
Để dễ ghi chú, giả sử rằng đã được căn giữa trong các tính toán sau. Sau đó chúng ta phải giảm thiểu
trên với các cột trực giao. Lưu ý rằng là hình chiếu lên không gian cột q chiều. Do đó, vấn đề tương đương với việc giảm thiểu
trên bậc q dự báo . Nghĩa là, chúng ta cần tối đa hóa
trên xếp hạng q dự đoán , trong đó là ma trận hiệp phương thức mẫu. Hiện nay
Lỗi tái cấu trúc cho thấy một số khái quát hóa hữu ích, ví dụ như các thành phần chính thưa thớt hoặc tái cấu trúc bởi các đa tạp chiều thấp thay vì hyperplanes. Để biết chi tiết, xem Phần 14,5 trong Các yếu tố của học thống kê .