Tại sao t-SNE không được sử dụng như một kỹ thuật giảm kích thước để phân cụm hoặc phân loại?


34

Trong một nhiệm vụ gần đây, chúng tôi được yêu cầu sử dụng PCA trên các chữ số MNIST để giảm kích thước từ 64 (8 x 8 hình ảnh) xuống 2. Sau đó chúng tôi phải phân cụm các chữ số bằng Mô hình hỗn hợp Gaussian. PCA chỉ sử dụng 2 thành phần chính không mang lại các cụm khác biệt và kết quả là mô hình không thể tạo ra các nhóm hữu ích.

Tuy nhiên, sử dụng t-SNE với 2 thành phần, các cụm được phân tách tốt hơn nhiều. Mô hình hỗn hợp Gaussian tạo ra các cụm khác biệt hơn khi áp dụng cho các thành phần t-SNE.

Sự khác biệt trong PCA với 2 thành phần và t-SNE với 2 thành phần có thể được nhìn thấy trong cặp hình ảnh sau đây trong đó các phép biến đổi đã được áp dụng cho bộ dữ liệu MNIST.

PCA trên MNIST

t-SNE trên MNIST

Tôi đã đọc rằng t-SNE chỉ được sử dụng để trực quan hóa dữ liệu chiều cao, như trong câu trả lời này , nhưng được đưa ra các cụm riêng biệt mà nó tạo ra, tại sao nó không được sử dụng như một kỹ thuật giảm kích thước được sử dụng cho các mô hình phân loại hoặc như một phương pháp phân cụm độc lập?


2
Bạn có nghĩa là phân loại hoặc phân cụm? Tiêu đề nói phân cụm nhưng bài viết nói phân loại.
usεr11852 nói Phục hồi Monic

Xin lỗi vì điều đó. Tôi muốn biết lý do tại sao nó không được sử dụng như một kỹ thuật phân cụm hoặc như một kỹ thuật giảm kích thước để phân loại. Tôi đã chỉnh sửa để phản ánh điều này.
willk

Thật trùng hợp, một bài báo được phát hành gần đây sử dụng t-SNE và thuật toán phân cụm không giám sát để dán nhãn cho các quá trình đốt cháy.
tpg2114

2
Câu trả lời mà bạn liên kết chứng minh tSNE có thể gây hiểu lầm như thế nào. Bạn thấy các cụm trong cốt truyện không tồn tại trong dữ liệu. Điều đó có hại nếu bạn không có nhãn. Và đừng rút ra quá nhiều kết luận từ dữ liệu của MNIST. Đó là một bộ dữ liệu được xử lý cực kỳ tốt ...
Anony-Mousse

1
Tôi thấy bài viết này hữu ích trong việc giải thích t-SNE và những nhược điểm của nó. Nó có rất nhiều hình ảnh tương tác giúp nhấn mạnh những điểm chính.
willk

Câu trả lời:


33

tt

tt

tt11Chúng tôi cũng có thể đã sử dụng phân loại để bắt đầu (điều này đưa chúng tôi trở lại sử dụng bộ tự động).


1
Q dường như hỏi nhiều về phân cụm hơn là về phân loại. Ít nhất là phân cụm là trong tiêu đề.
amip nói rằng Phục hồi lại

@amoeba: Tôi cũng nghĩ như vậy và đã viết về việc sử dụng tiềm năng thông qua phân cụm không dựa trên khoảng cách (ví dụ: FMM, DBSCAN), nhưng sau đó tôi đọc câu hỏi: " tại sao nó không được sử dụng như một kỹ thuật giảm kích thước được sử dụng để phân loại các mô hình? "
usεr11852 nói Phục hồi Monic

Có, nhưng tiêu đề Q là khác nhau. Tôi nghĩ OP có thể nhầm lẫn về sự khác biệt vì vậy có thể có ý nghĩa để giải quyết cả hai trong A của bạn!
amip nói rằng Phục hồi lại

4
OK .. OK ... eukaryote lái xe nô lệ ...: P
usεr11852 nói Phục hồi Monic

1
(+1) Tôi rất muốn nghe suy nghĩ của bạn về số liệu thống kê cụm / t-SNE này.stackexchange.com/questions/263539 tôi vừa đăng. CC cũng gửi tới @caseWestern - điều này cũng có thể khiến bạn quan tâm.
amip nói phục hồi Monica

3

t-SNE không bảo toàn khoảng cách, nhưng về cơ bản, nó ước tính phân phối xác suất. Về lý thuyết, thuật toán t-SNE ánh xạ đầu vào vào không gian bản đồ có 2 hoặc 3 chiều. Không gian đầu vào được giả sử là phân phối Gaussian và không gian bản đồ là phân phối t. Hàm mất mát được sử dụng là Phân kỳ KL giữa hai phân phối được giảm thiểu bằng cách sử dụng độ dốc giảm dần.

Theo Laurens van der Maaten, đồng tác giả của t-SNE

t-SNE không giữ lại khoảng cách nhưng xác suất, do đó, đo một số lỗi giữa khoảng cách Euclide ở mức D cao và thấp là vô ích.

Tài liệu tham khảo:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-int sinhtion-to-the-t-sne-alacticm


2

Như một tuyên bố chung: được đưa ra một bộ phân loại đủ mạnh (/ phù hợp) hoặc cluster-er, người ta sẽ không bao giờ áp dụng bất kỳ sự giảm kích thước nào .

Giảm kích thước mất thông tin.

Vì một cụm sao hoặc phân loại (phân loại đặc biệt, ít phân cụm hơn), bên trong kết hợp một số hình thức chiếu vào một không gian có ý nghĩa. Và giảm kích thước cũng được chiếu vào một không gian có ý nghĩa (hy vọng).

Nhưng việc giảm kích thước phải thực hiện theo cách không hiểu rõ - nó không biết bạn đang giảm nhiệm vụ gì. Điều này đặc biệt đúng đối với phân loại, nơi bạn có thông tin được giám sát hoàn toàn. Nhưng nó cũng áp dụng cho phân cụm, trong đó không gian mà người ta muốn chiếu để phân cụm được xác định tốt hơn (đối với thuật toán này) thay vì chỉ "có ít kích thước hơn). Câu trả lời của @ usεr11852 nói về điều này. Như tôi đã nói giảm kích thước không biết điều gì. nhiệm vụ bạn đang giảm cho - bạn thông báo cho bạn biết bạn sẽ sử dụng thuật toán giảm kích thước nào.

Vì vậy, thường thay vì thêm một bước giảm kích thước như tiền xử lý trước khi phân cụm / phân loại, tốt hơn là sử dụng một trình phân loại / cụm khác nhau kết hợp một phép chiếu hữu ích.

Một điều giảm bớt sự thay đổi đã xảy ra trong trường hợp này là bản chất không bị giám sát của nó trong việc tạo ra hình chiếu cho không gian có ý nghĩa (hy vọng). Điều này rất hữu ích nếu bạn có ít dữ liệu nhãn. Nhưng thường có các phương pháp khác được liên kết chặt chẽ với trình phân loại của bạn (ví dụ: đối với các mạng thần kinh, sử dụng trình tự động mã hóa, ví dụ như tiền xử lý mạng niềm tin sâu) sẽ hoạt động tốt hơn, vì chúng được thiết kế với nhiệm vụ cuối cùng đó. Không phải là nhiệm vụ chung hơn của giảm chiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.