Tại sao chỉ có


22

Trong PCA, khi số lượng kích thước lớn hơn (hoặc thậm chí bằng) số lượng mẫu N , tại sao bạn sẽ có nhiều nhất các hàm sinh học N - 1 khác không? Nói cách khác, thứ hạng của ma trận hiệp phương sai giữa các kích thước d NN - 1 .dNN1dNN1

Ví dụ: Các mẫu của bạn là hình ảnh được vector hóa, có kích thước , nhưng bạn chỉ có N = 10 hình ảnh.d=640×480=307200N=10


5
Tưởng tượng điểm ở dạng 2D hoặc 3D. Các chiều của đa tạp mà các điểm này đang chiếm là gì? Câu trả lời là N - 1 = 1 : hai điểm luôn nằm trên một dòng (và một dòng là 1 chiều). Kích thước chính xác của không gian không quan trọng (miễn là nó lớn hơn N ), điểm của bạn chỉ chiếm không gian con 1 chiều. Vì vậy, phương sai chỉ "lan truyền" trong không gian con này, tức là dọc theo 1 chiều. Đây vẫn đúng đối với bất kỳ N . N=2N1=1NN
amip nói rằng Phục hồi Monica

1
Tôi chỉ thêm một độ chính xác bổ sung cho nhận xét của @ amoeba. Điểm gốc cũng có vấn đề. Vì vậy, nếu bạn có N = 2 + gốc, số lượng kích thước tối đa là 2 (không phải 1). Tuy nhiên, trong PCA, chúng tôi thường tập trung vào dữ liệu, điều đó có nghĩa là chúng tôi đặt nguồn gốc bên trong không gian của đám mây dữ liệu - sau đó một chiều được tiêu thụ và câu trả lời sẽ là "N-1", như được hiển thị bởi amip.
ttnphns

Đây là điều làm tôi bối rối. Đó không phải là trung tâm mỗi se phá hủy kích thước, phải không? Nếu bạn có chính xác N mẫu và kích thước N, thì ngay cả sau khi định tâm bạn vẫn có N eigenvector ..?
GrokingPCA

2
Tại sao? Đó là trung tâm phá hủy một chiều. Định tâm (theo trung bình số học) "di chuyển" nguồn gốc từ "bên ngoài" vào không gian "được kéo dài" bởi dữ liệu. Với ví dụ về N = 2. 2 điểm + một số nguồn gốc thường kéo dài một mặt phẳng. Khi bạn căn giữa dữ liệu này, bạn đặt gốc tọa độ trên một đường thẳng ở giữa 2 điểm. Vì vậy, dữ liệu bây giờ chỉ trải dài trên dòng.
ttnphns

3
Euclid đã biết điều này 2300 năm trước: hai điểm xác định một đường thẳng, ba điểm xác định một mặt phẳng. Tổng quát hóa, điểm xác định không gian Euclide N - 1 chiều . NN1
whuber

Câu trả lời:


20

Hãy xem xét những gì PCA làm. Nói một cách đơn giản, PCA (như thường chạy nhất) tạo ra một hệ tọa độ mới bằng cách:

  1. chuyển nguồn gốc sang trọng tâm dữ liệu của bạn,
  2. siết và / hoặc kéo dài các trục để làm cho chúng có chiều dài bằng nhau và
  3. xoay trục của bạn thành một hướng mới.

X1


X=[111222]

nhập mô tả hình ảnh ở đây

(1.5,1.5,1.5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3)

N=2N1=1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.