Trực giác về kỹ thuật hình dung t-SNE


8

Tôi đã tạo một trực quan t-SNE của một tập dữ liệu (khoảng 10 tính năng số được chuẩn hóa (mean = 0, sd = 1)) và tôi đã đến một âm mưu 2 chiều sau đây. Tôi không có trực giác tốt tại sao các điểm được sắp xếp theo thứ tự các nhóm hình vòng cung, xem ví dụ phần dưới cùng bên phải của hình ảnh kèm theo (hoặc phần ngoài cùng bên trái của nó).

Tôi đã tìm thấy một hiệu ứng tương tự tại bài báo gốc http://www.cs.toronto.edu/~hinton/absps/tsne.pdf - xem Hình 4.a. Tuy nhiên, tôi đã không tìm thấy một lời giải thích tốt về loại hiện tượng này.

Bất kỳ trực giác về lý do tại sao điều này xảy ra?

nhập mô tả hình ảnh ở đây


1
Hoạt hình t-SNE gần đúng bắt buộc: link
Fireorms

1
Liên kết của Fireorms bị hỏng. Có thể kiểm tra hướng dẫn này: distill.pub/2016/misread-tsne
LE Rogerson

Một loại câu hỏi ngẫu nhiên, có thể thay đổi với bất kỳ tập dữ liệu nào.

Câu trả lời:


2

Một hiện tượng tương tự có thể được nhìn thấy nếu bạn tìm kiếm hình ảnh của "bố cục đồ thị mùa xuân", cho bạn thấy nhiều ví dụ về các cung như vậy, chẳng hạn như cái này từ wikipedia . Gần đỉnh trên cạnh phải của hình ảnh, chúng ta thấy một vòng cung như vậy. Phải thừa nhận rằng đây không phải là ví dụ tốt nhất. Góc trên bên phải của hình ảnh này từ bài báo này cho thấy hiệu ứng một chút

Hầu hết các trực quan hóa đồ thị này được tạo ra bằng cách mô phỏng một lực lò xo giữa mỗi cặp nút được kết nối và cho phép các nút di chuyển theo lực này.

Trong t-SNE, có thể giải thích tương tự thuật toán - các điểm trong không gian 2D có lò xo, độ dài nghỉ của nó phụ thuộc vào khoảng cách của các điểm trong không gian chiều cao ban đầu. Vì vậy, các điểm ở gần không gian 2D hơn so với trong không gian chiều cao được đẩy ra xa hơn và các điểm ở xa hơn trong không gian 2D so với không gian chiều cao được kéo lại với nhau.

Vì vậy, có khả năng các cung tròn hình thành vì chúng đang cố gắng duy trì khoảng cách không đổi đến một nhóm điểm khác trong dữ liệu.

Không giống như cách bố trí biểu đồ lò xo ở trên, mọi cặp điểm trong t-SNE đều có lò xo / lực được gắn vào nó, vì vậy đây là một câu hỏi hợp lệ để hỏi tại sao các cung không tụ lại thành các đốm màu, như thể hiện trong hình ảnh trực quan từ wikipedia, trong đó một số nhóm nút trên các cạnh đã hình thành các cụm tròn chứ không phải vòng cung.

Tôi nghi ngờ lý do cho điều này là vì mỗi điểm trong t-SNE có một phương sai gắn liền với nó. Các điểm trong vùng thưa thớt của không gian chiều cao có phương sai cao hơn so với các điểm trong không gian chiều thấp hơn. Lực tác dụng lên các lò xo của các điểm có phương sai cao bị giảm, vì vậy nếu các điểm trong một vòng cung nằm trong một vùng thưa thớt của không gian ban đầu, sẽ chỉ có một lực yếu cố gắng kéo chúng vào một cụm, điều này có thể không khắc phục được lực lượng đối lập.

Hơn nữa, phương pháp mà các tác giả sử dụng để giảm sự đông đúc là sử dụng phân phối có đuôi nặng trong không gian 2D, có nghĩa là các điểm không bị phạt quá nặng vì cách xa nhau hơn mức cần thiết. Điều này cũng làm giảm các lực sẽ cố gắng kéo một vòng cung thành một cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.