Trong PCA, khi số lượng kích thước lớn hơn (hoặc thậm chí bằng) số lượng mẫu N , tại sao bạn sẽ có nhiều nhất các hàm sinh học N - 1 khác không? Nói cách khác, thứ hạng của ma trận hiệp phương sai giữa các kích thước d ≥ N là N - 1 .
Ví dụ: Các mẫu của bạn là hình ảnh được vector hóa, có kích thước , nhưng bạn chỉ có N = 10 hình ảnh.
5
Tưởng tượng điểm ở dạng 2D hoặc 3D. Các chiều của đa tạp mà các điểm này đang chiếm là gì? Câu trả lời là N - 1 = 1 : hai điểm luôn nằm trên một dòng (và một dòng là 1 chiều). Kích thước chính xác của không gian không quan trọng (miễn là nó lớn hơn N ), điểm của bạn chỉ chiếm không gian con 1 chiều. Vì vậy, phương sai chỉ "lan truyền" trong không gian con này, tức là dọc theo 1 chiều. Đây vẫn đúng đối với bất kỳ N .
—
amip nói rằng Phục hồi Monica
Tôi chỉ thêm một độ chính xác bổ sung cho nhận xét của @ amoeba. Điểm gốc cũng có vấn đề. Vì vậy, nếu bạn có N = 2 + gốc, số lượng kích thước tối đa là 2 (không phải 1). Tuy nhiên, trong PCA, chúng tôi thường tập trung vào dữ liệu, điều đó có nghĩa là chúng tôi đặt nguồn gốc bên trong không gian của đám mây dữ liệu - sau đó một chiều được tiêu thụ và câu trả lời sẽ là "N-1", như được hiển thị bởi amip.
—
ttnphns
Đây là điều làm tôi bối rối. Đó không phải là trung tâm mỗi se phá hủy kích thước, phải không? Nếu bạn có chính xác N mẫu và kích thước N, thì ngay cả sau khi định tâm bạn vẫn có N eigenvector ..?
—
GrokingPCA
Tại sao? Đó là trung tâm phá hủy một chiều. Định tâm (theo trung bình số học) "di chuyển" nguồn gốc từ "bên ngoài" vào không gian "được kéo dài" bởi dữ liệu. Với ví dụ về N = 2. 2 điểm + một số nguồn gốc thường kéo dài một mặt phẳng. Khi bạn căn giữa dữ liệu này, bạn đặt gốc tọa độ trên một đường thẳng ở giữa 2 điểm. Vì vậy, dữ liệu bây giờ chỉ trải dài trên dòng.
—
ttnphns
Euclid đã biết điều này 2300 năm trước: hai điểm xác định một đường thẳng, ba điểm xác định một mặt phẳng. Tổng quát hóa, điểm xác định không gian Euclide N - 1 chiều .
—
whuber