t-SNE so với MDS


21

Gần đây, tôi đã đọc một số câu hỏi về t-SNE ( T-Stochastic Neighbor Nhúng ) và cũng đã truy cập một số câu hỏi về MDS ( Thang đo đa chiều ).

Chúng thường được sử dụng tương tự, vì vậy có vẻ như một ý tưởng tốt làm cho câu hỏi này thấy có nhiều câu hỏi trên cả hai (hoặc so với PCA ) ở đây.


Nói tóm lại, điều gì làm cho t-SNE và MDS khác nhau? ví dụ. Những đặc điểm nào của hệ thống phân cấp dữ liệu mà họ khám phá, các giả định khác nhau, v.v.

Tỷ lệ hội tụ? Còn việc sử dụng hạt nhân, cả hai có tuân thủ không?

Câu trả lời:


19

PCA chọn các kích thước có ảnh hưởng bằng cách phân tích riêng các điểm dữ liệu N, trong khi MDS chọn các kích thước có ảnh hưởng bằng cách phân tích riêng các điểm dữ liệu của ma trận khoảng cách theo cặp. Điều này có tác dụng làm nổi bật những sai lệch so với tính đồng nhất trong phân phối. Coi ma trận khoảng cách tương tự như một ứng suất căng, MDS có thể được coi là thuật toán bố trí "hướng lực", độ phức tạp thực hiện của nó là trong đó . O ( d N một ) 3 < một 4N2O(dNa)3<a4

Mặt khác, t-SNE sử dụng một xấp xỉ trường để thực hiện một hình thức bố trí hướng lực khác nhau, thường là thông qua Barnes-Hut, làm giảm độ phức tạp dựa trên độ dốc thành , nhưng các đặc tính hội tụ ít được hiểu rõ hơn đối với phương pháp xấp xỉ ngẫu nhiên lặp này (theo hiểu biết tốt nhất của tôi) và trong thời gian chạy quan sát điển hình nói chung dài hơn các phương pháp giảm kích thước khác. Các kết quả thường dễ hiểu hơn so với phân tích sinh học ngây thơ, và tùy thuộc vào phân phối, thường trực quan hơn kết quả MDS, có xu hướng bảo tồn cấu trúc toàn cầu với chi phí của cấu trúc địa phương được giữ lại bởi t-SNE.O ( d N log ( N ) ) 2 d 4O(dN2)O(dNlog(N))2d4

MDS đã được đơn giản hóa PCA kernel, và có thể mở rộng bằng các hạt nhân thay thế, trong khi kernel t-SNE được mô tả trong công việc của Gilbrecht, Hammer, Schulz, Mokbel, Lueks et al. Tôi không thực sự quen thuộc với nó, nhưng có lẽ một người trả lời khác có thể.

Tôi có xu hướng chọn giữa MDS và t-SNE trên cơ sở các mục tiêu theo ngữ cảnh. Bất cứ điều gì làm sáng tỏ cấu trúc mà tôi quan tâm đến việc làm nổi bật, cấu trúc nào có sức mạnh giải thích lớn hơn, đó là thuật toán tôi sử dụng. Đây có thể được coi là một cạm bẫy, vì nó là một hình thức của mức độ tự do của nhà nghiên cứu. Nhưng tự do được sử dụng một cách khôn ngoan không phải là một điều xấu.


Rất thú vị! Tôi có thể yêu cầu bạn làm rõ về việc giải thích MDS như một thuật toán bố cục "hướng theo lực lượng" và theo cách hiểu này, nó khác với t-SNE như thế nào không?
Garini
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.