Hàng xóm gần nhất có ý nghĩa gì với t-SNE không?


10

Câu trả lời ở đây đã nói rằng kích thước trong t-SNE là vô nghĩakhoảng cách giữa các điểm không phải là thước đo tương tự .

Tuy nhiên, chúng ta có thể nói bất cứ điều gì về một điểm dựa trên hàng xóm gần nhất trong không gian t-SNE không? Câu trả lời này cho lý do tại sao các điểm giống hệt nhau không được phân cụm cho thấy tỷ lệ khoảng cách giữa các điểm là tương tự nhau giữa các biểu diễn chiều thấp hơn và cao hơn.

Ví dụ: hình ảnh bên dưới hiển thị t-SNE trên một trong các bộ dữ liệu của tôi (15 lớp).

Tôi có thể nói rằng cro 479(trên cùng bên phải) là một ngoại lệ? Là fra 1353(dưới cùng bên trái) là tương tự như cir 375so với các hình ảnh khác trong fralớp, vv? Hoặc những thứ này chỉ có thể là đồ tạo tác, ví dụ như fra 1353bị kẹt ở phía bên kia của một vài cụm và không thể đi qua fralớp kia ?

nhập mô tả hình ảnh ở đây



Câu trả lời:


8

Không, không cần thiết phải như vậy, tuy nhiên, đây là một cách khó hiểu, mục tiêu của T-SNE.

Trước khi đi vào phần cốt lõi của câu trả lời, chúng ta hãy xem xét một số định nghĩa cơ bản, cả về mặt toán học và trực giác.

RdX1,...,XnRdxRd||X1x||...||Xnx||Rd

dyxddd+k. Vì vậy, chúng tôi có trực giác của chúng tôi đó là khoảng cách được duy trì trên các kích thước khác nhau, hoặc ít nhất, đó là những gì chúng tôi hướng tới. Hãy thử chứng minh nó bằng một số toán học.

pj|i=exp(||xjxi||22σ2)kiexp(||xjxi||22σ2)Rk

Bây giờ cuối cùng là một ví dụ mã hóa gọn gàng cũng thể hiện khái niệm này.

from sklearn.manifold import TSNE
from sklearn.neighbors import KNeighborsClassifier
X = [[0],[1],[2],[3],[4],[5],[6],[7],[8],[9]]
y = [0,1,2,3,4,5,6,7,8,9]
neighs = KNeighborsClassifier(n_neighbors=3)
neighs.fit(X, y)
X_embedded = TSNE(n_components=1).fit_transform(X)
neighs_tsne = KNeighborsClassifier(n_neighbors=3)
neighs_tsne.fit(X_embedded, y)
print(neighs.predict([[1.1]]))
>>>[0]
print(neighs_tsne.predict([[1.1]]))
>>>[0]

Mặc dù đây là một ví dụ rất ngây thơ và không phản ánh sự phức tạp, nhưng nó hoạt động bằng thử nghiệm cho một số ví dụ đơn giản.

EDIT: Ngoài ra, việc thêm một số điểm liên quan đến chính câu hỏi, do đó không cần thiết phải như vậy, tuy nhiên, việc hợp lý hóa nó thông qua toán học sẽ chứng minh rằng bạn không có kết quả cụ thể (không có hoặc không có kết quả cụ thể) .

Tôi hy vọng điều này đã làm sáng tỏ một số mối quan tâm của bạn với TSNE.


Cảm ơn câu trả lời tốt. Tóm lại: Các điểm có độ tương tự cao có xác suất ở gần cao. Tôi đoán rằng tham số lúng túng kiểm soát có bao nhiêu điểm được sử dụng để tính xác suất, do đó các cụm có thể trở nên rời rạc nếu độ nhiễu thấp. Bạn có thể nhận xét về cường điệu sớm? Ngoài ra, tôi cho rằng xác suất điểm bị ngoại lệ hoặc bị phân loại sai (có tất cả NN của họ trong lớp khác) khi sử dụng không gian TSNE, sẽ tăng lên nếu chúng phù hợp sau nhiều TSNE với khởi tạo ngẫu nhiên?
geometrikal

Đúng vậy, sự bối rối là một trong những yếu tố chính ảnh hưởng đến việc các điểm gần nhau ở lại với nhau như thế nào. Phóng đại sớm, theo trực giác là các cụm chặt chẽ trong không gian ban đầu và có bao nhiêu không gian giữa chúng trong không gian nhúng (vì vậy, đó là sự pha trộn của cả sự bối rối và cường điệu sớm ảnh hưởng đến khoảng cách giữa các điểm. là có, điều này là do sự lũy thừa của định mức, có thể gây ra các vấn đề trong không gian nhúng, do đó có thể có sự phân loại sai.
PSub
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.