Khi nào t-SNE gây hiểu lầm?

Trích dẫn từ một trong các tác giả:

t-Phân phối Stochastic Neighbor Nhúng (t-SNE) là một kỹ thuật ( giành giải thưởng ) để giảm kích thước, đặc biệt phù hợp để hiển thị các bộ dữ liệu chiều cao.

Nghe có vẻ khá tuyệt, nhưng đó là Tác giả đang nói.

Một trích dẫn khác của tác giả (re: cuộc thi nói trên):

Những gì bạn đã lấy đi từ cuộc thi này?
Luôn luôn trực quan hóa dữ liệu của bạn trước khi bạn bắt đầu đào tạo những người dự đoán về dữ liệu! Thông thường, các hình ảnh trực quan như những cái tôi tạo ra cung cấp cái nhìn sâu sắc về phân phối dữ liệu có thể giúp bạn xác định loại mô hình dự đoán nào sẽ thử.

Thông tin bắt buộc ¹ được bị mất - đó là một sự giảm chiều kỹ thuật sau tất cả. Tuy nhiên, vì đây là một kỹ thuật tốt để sử dụng khi trực quan hóa, thông tin bị mất ít có giá trị hơn thông tin được tô sáng (/ hiển thị / có thể hiểu được thông qua việc giảm xuống 2 hoặc 3 chiều).

Vì vậy, câu hỏi của tôi là:

Khi nào tSNE là công cụ sai cho công việc?
Loại dữ liệu nào khiến nó không hoạt động,
Những loại câu hỏi trông giống như nó có thể trả lời, nhưng thực tế nó không thể?
Trong trích dẫn thứ hai ở trên, bạn nên luôn luôn trực quan hóa tập dữ liệu của mình, có nên thực hiện trực quan hóa này với tSNE không?

Tôi hy vọng rằng câu hỏi này có thể được trả lời tốt nhất trong cuộc trò chuyện, tức là trả lời: Khi nào tSNE là công cụ phù hợp cho công việc?

Tôi đã được khuyến cáo không nên dựa vào tSNE nói với tôi như thế nào dữ liệu dễ dàng sẽ được phân loại (tách thành các lớp học - một mô hình phân biệt đối xử) Ví dụ của nó là gây hiểu lầm được, rằng, đối với hai hình ảnh dưới đây, một mô hình sinh sản ² đã tồi tệ hơn đối với dữ liệu được hiển thị ở đầu tiên / bên trái (độ chính xác 53,6%) so với dữ liệu tương đương với thứ hai / phải (độ chính xác 67,2%).

Đầu tiên thứ hai

¹ _{Tôi có thể sai về điều này Tôi có thể ngồi xuống và thử một ví dụ bằng chứng / phản biện sau}

² _{lưu ý rằng một mô hình thế hệ không giống như một mô hình phân biệt đối xử, nhưng đây là ví dụ tôi đã đưa ra.}

data-visualization dimensionality-reduction tsne

— Lyndon trắng
nguồn

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

@Lika: À, tất nhiên rồi. (làm thế nào mà tôi không nhận ra điều đó)

— Lyndon White

Những mô hình thế hệ bạn đang cố gắng?

— WeiC Breath Lin

@ Wei-ChingLin Tôi không chắc loại mô hình thế hệ nào đang được sử dụng. Có khả năng một số loại Mạng tin tưởng sâu sắc, Deep Boltzmann Manchine hoặc Autoencoder. Không thực sự liên quan đến trọng tâm của câu hỏi

— Lyndon White

Có liên quan: distill.pub/2016/misread-tsne

— Lyndon White

Câu trả lời:

T-Sne là một kỹ thuật thu nhỏ duy trì cấu trúc tỷ lệ nhỏ (nghĩa là đặc biệt gần với cái gì) của không gian, điều này giúp nó rất tốt trong việc hình dung khả năng phân tách dữ liệu. Điều này có nghĩa là T-Sne đặc biệt hữu ích cho việc hình dung sớm nhằm tìm hiểu mức độ phân tách dữ liệu. Các kỹ thuật khác (ví dụ PCA) để dữ liệu trong các biểu diễn chiều thấp hơn được đặt chồng lên nhau khi các kích thước biến mất, điều này rất khó đưa ra bất kỳ tuyên bố rõ ràng nào về khả năng phân tách trong không gian chiều cao hơn.

Vì vậy, ví dụ, nếu bạn nhận được một biểu đồ T-Sne với nhiều dữ liệu chồng chéo, tỷ lệ cược cao là trình phân loại của bạn sẽ hoạt động kém, bất kể bạn làm gì. Ngược lại, nếu bạn thấy dữ liệu được phân tách rõ ràng trong biểu đồ T-Sne, thì dữ liệu chiều cao cơ bản chứa đủ biến thiên để xây dựng một bộ phân loại tốt.

— John Yetter
nguồn

Đó là một lời giải thích rất hay về T-SNE là gì, cảm ơn. Nhưng tôi không thấy câu trả lời cho câu hỏi thực tế của mình (Xem các dấu chấm trong bài mở đầu.)

— Lyndon White

Điều này không trả lời câu hỏi nào cả.

— amip nói rằng Phục hồi lại

Ra khỏi hộp, tSNE có một vài siêu âm, cái chính là sự bối rối. Hãy nhớ rằng theo phương pháp heuristity, perplexity xác định một khái niệm tương tự cho tSNE và một sự bối rối phổ quát được sử dụng cho tất cả các điểm dữ liệu. Bạn có thể thử tạo một tập dữ liệu được dán nhãn trong đó mỗi cụm có sự lúng túng khác nhau. Điều này có thể được thực hiện bằng cách thực hiện một hỗn hợp các gaussian, với một loạt các phương sai khác nhau. Tôi đoán điều này cũng sẽ gây ra các vấn đề trong việc triển khai tSNE của Barnes-Hut, vốn dựa trên dữ liệu phân tách và chỉ sử dụng hàng xóm gần nhất. tSNE cũng có một khoảng thời gian thư giãn ban đầu, cố gắng vượt qua các cụm thông qua nhau. Trong thời gian này, không có hình phạt hoặc đẩy lùi. Vì vậy, ví dụ, nếu dữ liệu của bạn trông như một cụm mì bị mờ (mỗi sợi mì đại diện cho một cụm nhất định), bạn ' Sẽ có một thời gian khó khăn để hiệu chỉnh thông qua ban đầu, và tôi nghi ngờ tSNE sẽ hoạt động tốt. Theo một nghĩa nào đó, tôi nghĩ rằng gợi ý này rằng tSNE sẽ không hoạt động tốt nếu dữ liệu của bạn được kết hợp với nhau và ban đầu nằm trong một không gian chiều thấp, giả sử 5.

$t$

$k$

— Alex R.
nguồn