Tôi có một vài câu hỏi nhanh về PCA:
- PCA có cho rằng tập dữ liệu là Gaussian không?
- Điều gì xảy ra khi tôi áp dụng PCA cho dữ liệu phi tuyến tính vốn có?
Đưa ra một tập dữ liệu, quá trình đầu tiên là bình thường hóa, đặt phương sai thành 1, lấy SVD, giảm thứ hạng và cuối cùng ánh xạ tập dữ liệu vào không gian thứ hạng giảm mới. Trong không gian mới, mỗi chiều tương ứng với một "hướng" của phương sai tối đa.
- Nhưng sự tương quan của tập dữ liệu đó trong không gian mới luôn luôn bằng không, hay điều đó chỉ đúng với dữ liệu vốn là Gaussian?
Giả sử tôi có hai bộ dữ liệu, "A" và "B", trong đó "A" tương ứng với các điểm được lấy mẫu ngẫu nhiên được lấy từ một Gaussian, trong khi "B" tương ứng với các điểm được lấy mẫu ngẫu nhiên từ một phân phối khác (giả sử là Poisson).
- PCA (A) so với PCA (B) như thế nào?
- Bằng cách nhìn vào các điểm trong không gian mới, làm thế nào tôi xác định được PCA (A) tương ứng với các điểm được lấy mẫu từ Gaussian, trong khi PCA (B) tương ứng với các điểm được lấy mẫu từ Poisson?
- Là mối tương quan của các điểm trong "A" 0?
- Là mối tương quan của các điểm trong "B" cũng là 0?
- Quan trọng hơn, tôi có hỏi câu hỏi "đúng" không?
- Tôi nên xem xét mối tương quan, hay có một số liệu nào khác mà tôi nên xem xét?