Trong phân tích thành phần chính (PCA), người ta có thể chọn ma trận hiệp phương sai hoặc ma trận tương quan để tìm các thành phần (từ các hàm riêng tương ứng của chúng). Chúng cho kết quả khác nhau (tải PC và điểm số), bởi vì các hàm riêng giữa cả hai ma trận không bằng nhau. Tôi hiểu rằng điều này được gây ra bởi thực tế là một vectơ dữ liệu thô và tiêu chuẩn hóa của nó không thể liên quan thông qua một phép biến đổi trực giao. Về mặt toán học, các ma trận tương tự (nghĩa là liên quan bằng phép biến đổi trực giao) có cùng giá trị riêng, nhưng không nhất thiết phải là cùng một hàm riêng.Z
Điều này đặt ra một số khó khăn trong tâm trí của tôi:
PCA có thực sự có ý nghĩa không, nếu bạn có thể nhận được hai câu trả lời khác nhau cho cùng một tập dữ liệu bắt đầu, cả hai đều cố gắng đạt được cùng một điều (= tìm hướng của phương sai tối đa)?
Khi sử dụng phương pháp tiếp cận ma trận tương quan, mỗi biến đang được chuẩn hóa (chia tỷ lệ) theo độ lệch chuẩn riêng của nó, trước khi tính toán các PC. Vậy thì, làm thế nào vẫn hợp lý khi tìm hướng của phương sai tối đa nếu dữ liệu đã được thu nhỏ / nén khác nhau trước đó? Tôi biết rằng PCA dựa trên tương quan rất thuận tiện (các biến được tiêu chuẩn hóa là không thứ nguyên, vì vậy các kết hợp tuyến tính của chúng có thể được thêm vào; các ưu điểm khác cũng dựa trên chủ nghĩa thực dụng), nhưng liệu có đúng không?
Đối với tôi, dường như PCA dựa trên hiệp phương sai là duy nhất đúng (ngay cả khi phương sai của các biến khác nhau rất lớn) và bất cứ khi nào phiên bản này không thể được sử dụng, PCA dựa trên tương quan cũng không nên được sử dụng.
Tôi biết rằng có chủ đề này: PCA về tương quan hoặc hiệp phương sai? - nhưng dường như chỉ tập trung vào việc tìm kiếm một giải pháp thực dụng, có thể hoặc không phải là một giải pháp đại số chính xác.