Hãy để tôi bắt đầu với PCA. Giả sử rằng bạn có n điểm dữ liệu bao gồm các số d (hoặc kích thước) mỗi điểm. Nếu bạn căn giữa dữ liệu này (trừ điểm dữ liệu trung bình từ mỗi vectơ dữ liệu ), bạn có thể xếp chồng dữ liệu để tạo ma trậnμxi
X=⎛⎝⎜⎜⎜⎜⎜⎜xT1−μTxT2−μT⋮xTn−μT⎞⎠⎟⎟⎟⎟⎟⎟.
Ma trận hiệp phương sai
S=1n−1∑i=1n(xi−μ)(xi−μ)T=1n−1XTX
đo lường mức độ tọa độ khác nhau trong đó dữ liệu của bạn được cung cấp khác nhau cùng nhau. Vì vậy, có lẽ không có gì đáng ngạc nhiên khi PCA - được thiết kế để nắm bắt sự biến đổi của dữ liệu của bạn - có thể được đưa ra dưới dạng ma trận hiệp phương sai. Cụ thể, sự phân rã eigenvalue của hóa ra làS
S=VΛVT=∑i=1rλivivTi,
trong đó là Thành phần chính thứ hoặc PC và là giá trị riêng thứ của và cũng bằng với phương sai của dữ liệu trên PC thứ . Phân hủy này xuất phát từ một định lý nói chung trong đại số tuyến tính, và một số công việc không phải được thực hiện để thúc đẩy các relatino để PCA.viiλiiSi
SVD là một cách chung để hiểu một ma trận theo không gian cột và không gian hàng của nó. (Đây là cách viết lại bất kỳ ma trận nào theo các ma trận khác có liên quan trực quan đến không gian hàng và cột.) Ví dụ: đối với ma trận chúng ta có thể tìm thấy hướng và trong miền và phạm vi sao choA=(1021)uivi
Bạn có thể tìm thấy những điều này bằng cách xem xét như một phép biến đổi tuyến tính biến hình cầu đơn vị trong miền của nó thành hình elip: bán trục chính của hình elip thẳng hàng với và là tiền đề của chúng.ASuivi
Trong mọi trường hợp, đối với ma trận dữ liệu ở trên (thực sự, chỉ cần đặt ), SVD cho phép chúng tôi viếtXA=X
X=∑i=1rσiuivTj,
nơi và là tập trực giao của vectors.A so sánh với sự phân hủy eigenvalue của tiết lộ rằng "vectơ đặc biệt đúng" đều bình đẳng để các máy tính, các "vectơ đặc biệt đúng" là{ v i } S v i{ui}{vi}Svi
ui=1(n−1)λi−−−−−−−−√Xvi,
và "giá trị số ít" có liên quan đến ma trận dữ liệu thông quaσi
σ2i=(n−1)λi.
Đó là một thực tế chung mà các vectơ đặc biệt đúng span các không gian cột của . Trong trường hợp cụ thể này, cung cấp cho chúng tôi hình chiếu tỷ lệ của dữ liệu theo hướng của thành phần chính thứ . Các vectơ số ít bên trái nói chung trải rộng không gian hàng của , cung cấp cho chúng ta một tập các vectơ trực giao kéo dài dữ liệu giống như PC. X u i X i v i XuiXuiXiviX
Tôi đi sâu vào một số chi tiết và lợi ích của mối quan hệ giữa PCA và SVD trong bài viết dài hơn này .