Sự khác biệt chính giữa t-SNE và UMAP là việc giải thích khoảng cách giữa các đối tượng hoặc "cụm". Tôi sử dụng dấu ngoặc kép vì cả hai thuật toán không có nghĩa là phân cụm - chúng chủ yếu để trực quan hóa.
t-SNE bảo tồn cấu trúc cục bộ trong dữ liệu.
UMAP tuyên bố để bảo vệ cả hai địa phương và hầu hết các cấu trúc toàn cầu trong dữ liệu.
Điều này có nghĩa là với t-SNE, bạn không thể giải thích khoảng cách giữa các cụm A và B ở các đầu khác nhau của âm mưu của bạn. Bạn không thể suy ra rằng các cụm này khác nhau hơn A và C, trong đó C gần với A hơn trong cốt truyện. Nhưng trong cụm A, bạn có thể nói rằng các điểm gần nhau là các đối tượng giống nhau hơn các điểm ở các đầu khác nhau của hình ảnh cụm.
Với UMAP, bạn sẽ có thể diễn giải cả khoảng cách giữa / vị trí của các điểm và cụm.
Cả hai thuật toán đều rất ngẫu nhiên và phụ thuộc rất nhiều vào sự lựa chọn của siêu đường kính (t-SNE thậm chí nhiều hơn UMAP) và có thể mang lại kết quả rất khác nhau trong các lần chạy khác nhau, do đó, âm mưu của bạn có thể làm xáo trộn thông tin trong dữ liệu mà lần chạy tiếp theo có thể tiết lộ.
Tốt PCA cũ trên Mặt khác là xác định và dễ hiểu với kiến thức cơ bản của đại số tuyến tính (nhân ma trận và eigenproblems), nhưng chỉ là một sự giảm tuyến tính trái ngược với giảm phi tuyến tính của t-SNE và UMAP.