Tôi hiểu từ bài báo của Hinton rằng T-SNE làm tốt công việc giữ sự tương đồng địa phương và một công việc tốt trong việc bảo tồn cấu trúc toàn cầu (phân cụm).
Tuy nhiên tôi không rõ liệu các điểm xuất hiện gần hơn trong hình ảnh trực quan 2D có thể được coi là các điểm dữ liệu "giống nhau hơn" hay không. Tôi đang sử dụng dữ liệu với 25 tính năng.
Ví dụ, quan sát hình ảnh bên dưới, tôi có thể giả sử rằng các điểm dữ liệu màu xanh giống với màu xanh lục hơn, đặc biệt là cụm điểm xanh lớn nhất không?. Hoặc, hỏi khác nhau, liệu có ổn không khi cho rằng các điểm màu xanh giống với điểm xanh trong cụm gần nhất, hơn là các điểm đỏ trong cụm khác? (bỏ qua các điểm màu xanh lá cây trong cụm màu đỏ)
Khi quan sát các ví dụ khác, chẳng hạn như những ví dụ được trình bày tại sci-kit, hãy học Manifold, có vẻ đúng khi thừa nhận điều này, nhưng tôi không chắc liệu nói có đúng về mặt thống kê hay không.
BIÊN TẬP
Tôi đã tính toán khoảng cách từ tập dữ liệu gốc theo cách thủ công (khoảng cách trung bình cặp đôi) và trực quan hóa thực sự đại diện cho một khoảng cách không gian tỷ lệ liên quan đến tập dữ liệu. Tuy nhiên, tôi muốn biết liệu điều này có được chấp nhận hay không được mong đợi từ công thức toán học ban đầu của t-sne và không chỉ là sự trùng hợp ngẫu nhiên.