Tôi đã bắt gặp một kịch bản trong đó tôi có 10 tín hiệu / người cho 10 người (vì vậy 100 mẫu) chứa 14000 điểm dữ liệu (kích thước) mà tôi cần chuyển đến bộ phân loại. Tôi muốn giảm tính chiều của dữ liệu này và PCA dường như là cách để làm điều đó. Tuy nhiên, tôi chỉ có thể tìm thấy các ví dụ về PCA trong đó số lượng mẫu lớn hơn số lượng kích thước. Tôi đang sử dụng ứng dụng PCA tìm thấy PC sử dụng SVD. Khi tôi vượt qua nó, tập dữ liệu 100x14000 của tôi có 101 máy tính được trả về nên phần lớn kích thước rõ ràng bị bỏ qua. Chương trình chỉ ra 6 PC đầu tiên chứa 90% phương sai.
Đây có phải là một giả định hợp lý rằng 101 PC này chứa cơ bản tất cả các phương sai và các kích thước còn lại là không thể bỏ qua?
Một trong những bài báo tôi đã đọc tuyên bố rằng, bằng cách sử dụng bộ dữ liệu tương tự (mặc dù chất lượng thấp hơn một chút) so với của tôi, họ có thể giảm 4500 kích thước xuống còn 80 giữ lại 96% thông tin ban đầu. Các sóng giấy trên các chi tiết của kỹ thuật PCA được sử dụng, chỉ có 3100 mẫu có sẵn và tôi có lý do để tin rằng ít mẫu hơn được sử dụng để thực sự thực hiện PCA (để loại bỏ sai lệch khỏi giai đoạn phân loại).
Tôi có thiếu thứ gì không hay đây thực sự là cách mà PCA được sử dụng với bộ dữ liệu cỡ mẫu thấp có kích thước cao? Bất kì phản hồi nào cũng sẽ được đánh giá cao.