Tại sao chỉ có

Trong PCA, khi số lượng kích thước lớn hơn (hoặc thậm chí bằng) số lượng mẫu , tại sao bạn sẽ có nhiều nhất các hàm sinh học khác không? Nói cách khác, thứ hạng của ma trận hiệp phương sai giữa các kích thước là . $d$ $N$ $N-1$ $d\ge N$ $N-1$

Ví dụ: Các mẫu của bạn là hình ảnh được vector hóa, có kích thước , nhưng bạn chỉ có hình ảnh. $d = 640\times480 = 307\,200$ $N=10$

pca dimensionality-reduction eigenvalues

— GrokingPCA
nguồn

Tưởng tượng

điểm ở dạng 2D hoặc 3D. Các chiều của đa tạp mà các điểm này đang chiếm là gì? Câu trả lời là

: hai điểm luôn nằm trên một dòng (và một dòng là 1 chiều). Kích thước chính xác của không gian không quan trọng (miễn là nó lớn hơn

), điểm của bạn chỉ chiếm không gian con 1 chiều. Vì vậy, phương sai chỉ "lan truyền" trong không gian con này, tức là dọc theo 1 chiều. Đây vẫn đúng đối với bất kỳ

N = 2

$N=2$

N - 1 = 1

$N-1=1$

N

$N$

N

$N$

— amip nói rằng Phục hồi Monica

Tôi chỉ thêm một độ chính xác bổ sung cho nhận xét của @ amoeba. Điểm gốc cũng có vấn đề. Vì vậy, nếu bạn có N = 2 + gốc, số lượng kích thước tối đa là 2 (không phải 1). Tuy nhiên, trong PCA, chúng tôi thường tập trung vào dữ liệu, điều đó có nghĩa là chúng tôi đặt nguồn gốc bên trong không gian của đám mây dữ liệu - sau đó một chiều được tiêu thụ và câu trả lời sẽ là "N-1", như được hiển thị bởi amip.

— ttnphns

Đây là điều làm tôi bối rối. Đó không phải là trung tâm mỗi se phá hủy kích thước, phải không? Nếu bạn có chính xác N mẫu và kích thước N, thì ngay cả sau khi định tâm bạn vẫn có N eigenvector ..?

— GrokingPCA

Tại sao? Đó là trung tâm phá hủy một chiều. Định tâm (theo trung bình số học) "di chuyển" nguồn gốc từ "bên ngoài" vào không gian "được kéo dài" bởi dữ liệu. Với ví dụ về N = 2. 2 điểm + một số nguồn gốc thường kéo dài một mặt phẳng. Khi bạn căn giữa dữ liệu này, bạn đặt gốc tọa độ trên một đường thẳng ở giữa 2 điểm. Vì vậy, dữ liệu bây giờ chỉ trải dài trên dòng.

— ttnphns

Euclid đã biết điều này 2300 năm trước: hai điểm xác định một đường thẳng, ba điểm xác định một mặt phẳng. Tổng quát hóa, điểm

xác định không gian Euclide

chiều .

N

$N$

N - 1

$N-1$

— whuber

Hãy xem xét những gì PCA làm. Nói một cách đơn giản, PCA (như thường chạy nhất) tạo ra một hệ tọa độ mới bằng cách:

chuyển nguồn gốc sang trọng tâm dữ liệu của bạn,
siết và / hoặc kéo dài các trục để làm cho chúng có chiều dài bằng nhau và
xoay trục của bạn thành một hướng mới.

$X_1$

X = [\begin{array}{ccc} 1 & 1 & 1 \\ 2 & 2 & 2 \end{array}]

$X = \bigg[ \begin{array}{ccc} 1 &1 &1 \\ 2 &2 &2 \end{array} \bigg]$

nhập mô tả hình ảnh ở đây

$(1.5, 1.5, 1.5)$ $(0,0,0)$ $(3,3,3)$ $(0,0,3)$ $(3,3,0)$ $(0,3,0)$ $(3,0,3)$

$N=2$ $N-1 = 1$

— gung - Phục hồi Monica
nguồn