PCA chỉ bảo tồn khoảng cách cặp lớn là gì?


10

Tôi hiện đang đọc về kỹ thuật hình ảnh t-SNE và được đề cập rằng một trong những nhược điểm của việc sử dụng phân tích thành phần chính (PCA) để hiển thị dữ liệu chiều cao là nó chỉ giữ khoảng cách cặp lớn giữa các điểm. Có nghĩa là các điểm cách xa nhau trong không gian chiều cao cũng sẽ xuất hiện cách xa nhau trong không gian con chiều thấp, nhưng khác với tất cả các khoảng cách cặp khác sẽ bị vặn lên.

Ai đó có thể giúp tôi hiểu tại sao lại như vậy và nó có nghĩa là gì về mặt đồ họa?


PCA có liên quan chặt chẽ với khoảng cách Euclidian và Mahalanobis, là cận thị ở kích thước cao hơn, chúng không thể nhìn thấy khoảng cách nhỏ.
Aksakal

Cũng lưu ý rằng PCA, được xem là MDS số liệu đơn giản nhất, là về việc xây dựng lại khoảng cách euclid bình phương tổng hợp . Hense, độ chính xác cho khoảng cách nhỏ bị.
ttnphns

Câu trả lời:


8

Hãy xem xét các tập dữ liệu sau:

Bộ dữ liệu PCA

Trục PC1 đang tối đa hóa phương sai của hình chiếu. Vì vậy, trong trường hợp này, nó rõ ràng sẽ đi theo đường chéo từ góc dưới bên trái sang góc trên bên phải:

PCA chỉ bảo toàn khoảng cách cặp lớn

Khoảng cách cặp lớn nhất trong bộ dữ liệu gốc là giữa hai điểm ngoại vi này; lưu ý rằng nó gần như được bảo quản chính xác trong PC1. Khoảng cách cặp nhỏ hơn nhưng vẫn đáng kể nằm giữa mỗi điểm ngoại vi và tất cả các điểm khác; những người được bảo quản hợp lý quá tốt. Nhưng nếu bạn nhìn vào khoảng cách cặp thậm chí nhỏ hơn giữa các điểm trong cụm trung tâm, thì bạn sẽ thấy rằng một số trong số chúng bị biến dạng mạnh.

Tôi nghĩ rằng điều này mang lại trực giác đúng đắn: PCA tìm thấy không gian con chiều thấp với phương sai tối đa. Phương sai tối đa có nghĩa là không gian con sẽ có xu hướng được căn chỉnh như đi gần đến các điểm nằm cách xa trung tâm; do đó, khoảng cách cặp lớn nhất sẽ có xu hướng được bảo quản tốt và những khoảng cách nhỏ hơn ít như vậy.

1010×1010×10trong thực tế được bảo quản tốt nhất bởi PC1 (xem câu trả lời của tôi ở đó để chứng minh). Và người ta có thể lập luận rằng khoảng cách cặp lớn thường có nghĩa là các sản phẩm vô hướng lớn; trên thực tế, một trong những thuật toán MDS (MDS cổ điển / Torgerson) sẵn sàng đưa ra giả định này một cách rõ ràng.

Vì vậy, để tóm tắt:

  1. PCA nhằm mục đích bảo tồn ma trận của các sản phẩm vô hướng theo cặp, theo nghĩa là tổng các khác biệt bình phương giữa các sản phẩm vô hướng gốc và tái tạo nên là tối thiểu.
  2. Điều này có nghĩa là thay vào đó sẽ bảo toàn các sản phẩm vô hướng có giá trị tuyệt đối lớn nhất và sẽ ít quan tâm đến những sản phẩm có giá trị tuyệt đối nhỏ, vì chúng thêm ít hơn vào tổng các lỗi bình phương.
  3. Do đó, PCA bảo quản các sản phẩm vô hướng lớn hơn tốt hơn các sản phẩm nhỏ hơn.
  4. Khoảng cách theo cặp sẽ chỉ được bảo toàn tương tự như các sản phẩm vô hướng thường nhưng không phải lúc nào cũng như vậy. Nếu đó là trường hợp, thì khoảng cách cặp lớn hơn cũng sẽ được bảo quản tốt hơn so với khoảng cách nhỏ hơn.

Tôi không nghĩ rằng đây là một hình ảnh đúng. Nó không cho thấy mọi thứ trở nên tồi tệ hơn với sự gia tăng chiều
Aksakal

2
Tôi không chắc tôi hiểu quan điểm của bạn, @Aksakal. Xem xét đăng một câu trả lời thay thế với quan điểm của bạn. Tôi nghĩ rằng hiệu quả của việc bảo quản tốt hơn khoảng cách cặp đôi nhỏ hơn đã có trong 2D và người ta không cần phải suy nghĩ về tính chiều cao để hiểu điều gì đang xảy ra. Do đó tôi tập trung vào một ví dụ 2D đơn giản.
amip nói rằng Phục hồi lại

Những gì bạn đã vẽ sẽ được áp dụng cho bất kỳ phương pháp. Tôi có thể đặt một vài điểm rất xa và lập luận rằng chúng vượt trội so với phần còn lại. Vấn đề với khoảng cách Euclidian là phạm vi động của chúng co lại khi tăng kích thước
Aksakal

+1, nhưng tôi sẽ thay đổi một trọng âm, hơi khác so với bạn đã làm (chủ yếu là điểm 4). Vấn đề không phải là đây là những khoảng cách và đó là những sản phẩm vô hướng (ma trận "tập trung kép") - xét cho cùng, với đường chéo họ lưu giữ thông tin giống hệt nhau. Thay vào đó, vấn đề hoàn toàn tương tự với tỷ lệ phân tích PCA và Factor. PCoA của Torgerson, với tư cách là PCA, sẽ nhằm mục đích tối đa hóa việc tái tạo sc. sản phẩm ma trận chủ yếu thông qua đường chéo của nó, không kiểm soát cụ thể làm thế nào các mục ngoài đường chéo sẽ được trang bị.
ttnphns

(tt) Dấu vết của đường chéo được đề cập là độ biến thiên tổng thể và liên quan trực tiếp đến tổng của tất cả các khoảng cách cặp bình phương, để lại khoảng cách riêng lẻ phía sau. Nó cũng có thể được diễn đạt theo định lý Eckart-Young, trong đó nêu rõ rằng đám mây dữ liệu được xây dựng lại của PCA gần nhất về tổng bình phương so với định lý ban đầu; nghĩa là, khoảng cách bình phương tổng thể giữa các điểm cũ và các điểm được chiếu theo PCA của chúng là tối thiểu. Điều này không giống với khoảng cách cặp đôi cũ - quan hệ khoảng cách pw mới.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.