Điểm gần hơn có thể được coi là giống nhau hơn trong hình dung T-SNE?

Tôi hiểu từ bài báo của Hinton rằng T-SNE làm tốt công việc giữ sự tương đồng địa phương và một công việc tốt trong việc bảo tồn cấu trúc toàn cầu (phân cụm).

Tuy nhiên tôi không rõ liệu các điểm xuất hiện gần hơn trong hình ảnh trực quan 2D có thể được coi là các điểm dữ liệu "giống nhau hơn" hay không. Tôi đang sử dụng dữ liệu với 25 tính năng.

Ví dụ, quan sát hình ảnh bên dưới, tôi có thể giả sử rằng các điểm dữ liệu màu xanh giống với màu xanh lục hơn, đặc biệt là cụm điểm xanh lớn nhất không?. Hoặc, hỏi khác nhau, liệu có ổn không khi cho rằng các điểm màu xanh giống với điểm xanh trong cụm gần nhất, hơn là các điểm đỏ trong cụm khác? (bỏ qua các điểm màu xanh lá cây trong cụm màu đỏ)

Khi quan sát các ví dụ khác, chẳng hạn như những ví dụ được trình bày tại sci-kit, hãy học Manifold, có vẻ đúng khi thừa nhận điều này, nhưng tôi không chắc liệu nói có đúng về mặt thống kê hay không.

BIÊN TẬP

Tôi đã tính toán khoảng cách từ tập dữ liệu gốc theo cách thủ công (khoảng cách trung bình cặp đôi) và trực quan hóa thực sự đại diện cho một khoảng cách không gian tỷ lệ liên quan đến tập dữ liệu. Tuy nhiên, tôi muốn biết liệu điều này có được chấp nhận hay không được mong đợi từ công thức toán học ban đầu của t-sne và không chỉ là sự trùng hợp ngẫu nhiên.

— Javierfdr
nguồn

Các điểm màu xanh là gần nhất với các điểm xanh lân cận tương ứng của chúng, đây là cách nhúng được thực hiện. Nói một cách lỏng lẻo những điểm tương đồng (hoặc khoảng cách) nên được bảo tồn. Đi từ 25 chiều xuống chỉ còn 2 chiều rất có thể dẫn đến mất thông tin, nhưng biểu diễn 2D là gần nhất có thể được hiển thị trên màn hình.

— Vladislavs Dovgalecs

Tôi sẽ trình bày t-SNE như một sự thích ứng xác suất thông minh của việc nhúng tuyến tính cục bộ. Trong cả hai trường hợp, chúng tôi cố gắng chiếu các điểm từ không gian chiều cao sang điểm nhỏ. Dự báo này được thực hiện bằng cách tối ưu hóa việc bảo tồn khoảng cách địa phương (trực tiếp với LLE, tạo ra sự phân phối xác suất và tối ưu hóa phân kỳ KL với t-SNE). Sau đó, nếu câu hỏi của bạn là, nó có giữ khoảng cách toàn cầu, câu trả lời là không. Nó sẽ phụ thuộc vào "hình dạng" dữ liệu của bạn (nếu phân phối trơn tru, thì khoảng cách nên được bảo tồn bằng cách nào đó).

t-SNE thực sự không hoạt động tốt trên cuộn swiss (hình ảnh 3D "S" của bạn) và bạn có thể thấy rằng, trong kết quả 2D, các điểm màu vàng ở giữa thường gần với các điểm màu đỏ hơn so với các điểm màu xanh (chúng được tập trung hoàn hảo trong hình ảnh 3D).

Một ví dụ điển hình khác về những gì t-SNE làm là phân cụm các chữ số viết tay. Xem các ví dụ trên liên kết này: https://lvdmaaten.github.io/tsne/

— Robin
nguồn

Ý tôi là bạn không thể chỉ sử dụng khoảng cách trong không gian thấp hơn làm tiêu chí tương tự. t-SNE sẽ giữ cấu trúc toàn cầu như các cụm nhưng không cần thiết giữ khoảng cách. Điều này sẽ phụ thuộc vào hình dạng của dữ liệu chiều cao và sự bối rối bạn sử dụng.

— Robin

Ok tôi hiểu rồi. Cảm ơn đã làm rõ. Có, tôi đồng ý rằng khoảng cách trong không gian thấp hơn sẽ không chính xác. Bây giờ, vì t-sne là thực tế để hình dung, tôi có thể sử dụng khoảng cách trong cốt truyện chiều thấp hơn về mặt khái niệm không? Ví dụ, trong cốt truyện của tôi, tôi có thể nói chắc chắn rằng các điểm màu xanh gần hoặc tương tự với điểm xanh hơn là màu đỏ, do sự phân tách rõ ràng của ba nhóm trong không gian 2d. Hay điều đó cũng khó nói?

— Javierfdr

Nó khá khó để nói. Các điểm trong không gian chiều thấp được khởi tạo với phân bố gaussian tập trung vào điểm gốc. Sau đó, chúng được thay thế lặp đi lặp lại tối ưu hóa phân kỳ KL. Vì vậy, tôi sẽ nói rằng trong trường hợp của bạn, các điểm màu xanh giống với cụm màu xanh lá cây hơn nhưng hiện tại có cách để đánh giá mức độ gần của chúng hơn so với cụm màu đỏ. t-SNE.

— Robin

Được kết hợp với nhau, t-SNE nhấn mạnh vào (1) mô hình hóa các điểm dữ liệu khác nhau bằng các khoảng cách cặp khôn ngoan lớn và (2) mô hình hóa các điểm dữ liệu tương tự bằng các khoảng cách cặp nhỏ. Cụ thể, t-SNE giới thiệu các lực lượng tầm xa trong bản đồ chiều thấp có thể kéo lại hai (các cụm) điểm tương tự được tách ra sớm trong quá trình tối ưu hóa.

— Robin

Giải thích rất hay. Cảm ơn rất nhiều vì sự nỗ lực của bạn. Tôi nghĩ rằng các ý kiến khác nhau của bạn đưa ra một câu trả lời hoàn chỉnh.

— Javierfdr