Hãy xem xét các tập dữ liệu sau:
Trục PC1 đang tối đa hóa phương sai của hình chiếu. Vì vậy, trong trường hợp này, nó rõ ràng sẽ đi theo đường chéo từ góc dưới bên trái sang góc trên bên phải:
Khoảng cách cặp lớn nhất trong bộ dữ liệu gốc là giữa hai điểm ngoại vi này; lưu ý rằng nó gần như được bảo quản chính xác trong PC1. Khoảng cách cặp nhỏ hơn nhưng vẫn đáng kể nằm giữa mỗi điểm ngoại vi và tất cả các điểm khác; những người được bảo quản hợp lý quá tốt. Nhưng nếu bạn nhìn vào khoảng cách cặp thậm chí nhỏ hơn giữa các điểm trong cụm trung tâm, thì bạn sẽ thấy rằng một số trong số chúng bị biến dạng mạnh.
Tôi nghĩ rằng điều này mang lại trực giác đúng đắn: PCA tìm thấy không gian con chiều thấp với phương sai tối đa. Phương sai tối đa có nghĩa là không gian con sẽ có xu hướng được căn chỉnh như đi gần đến các điểm nằm cách xa trung tâm; do đó, khoảng cách cặp lớn nhất sẽ có xu hướng được bảo quản tốt và những khoảng cách nhỏ hơn ít như vậy.
1010×1010×10trong thực tế được bảo quản tốt nhất bởi PC1 (xem câu trả lời của tôi ở đó để chứng minh). Và người ta có thể lập luận rằng khoảng cách cặp lớn thường có nghĩa là các sản phẩm vô hướng lớn; trên thực tế, một trong những thuật toán MDS (MDS cổ điển / Torgerson) sẵn sàng đưa ra giả định này một cách rõ ràng.
Vì vậy, để tóm tắt:
- PCA nhằm mục đích bảo tồn ma trận của các sản phẩm vô hướng theo cặp, theo nghĩa là tổng các khác biệt bình phương giữa các sản phẩm vô hướng gốc và tái tạo nên là tối thiểu.
- Điều này có nghĩa là thay vào đó sẽ bảo toàn các sản phẩm vô hướng có giá trị tuyệt đối lớn nhất và sẽ ít quan tâm đến những sản phẩm có giá trị tuyệt đối nhỏ, vì chúng thêm ít hơn vào tổng các lỗi bình phương.
- Do đó, PCA bảo quản các sản phẩm vô hướng lớn hơn tốt hơn các sản phẩm nhỏ hơn.
- Khoảng cách theo cặp sẽ chỉ được bảo toàn tương tự như các sản phẩm vô hướng thường nhưng không phải lúc nào cũng như vậy. Nếu đó là trường hợp, thì khoảng cách cặp lớn hơn cũng sẽ được bảo quản tốt hơn so với khoảng cách nhỏ hơn.