Làm cách nào để xác định tham số cho t-SNE để giảm kích thước?


11

Tôi rất mới với từ nhúng. Tôi muốn hình dung làm thế nào các tài liệu đang tìm kiếm sau khi học. Tôi đọc rằng t-SNE là cách tiếp cận để làm điều đó. Tôi có 100K tài liệu với 250 kích thước như kích thước của nhúng. Có một số gói có sẵn là tốt.

Tuy nhiên, đối với t-SNE, tôi không biết có bao nhiêu lần lặp hoặc giá trị của alpha hoặc giá trị của khả năng tồn tại mà tôi nên giữ để học tốt hơn.

Là những siêu tham số này hoặc chúng có thể được xác định bởi một số thuộc tính?

Câu trả lời:


12

Tôi đánh giá cao bài viết Cách sử dụng hiệu quả t-SNE . Nó có cốt truyện hoạt hình tuyệt vời của quá trình phù hợp với tsne, và là nguồn đầu tiên thực sự mang đến cho tôi sự hiểu biết trực quan về những gì tsne làm.

Ở mức độ cao, sự bối rối là thông số quan trọng. Đó là một ý tưởng tốt để thử sự bối rối của 5, 30 và 50 và xem kết quả.

Nhưng nghiêm túc, hãy đọc Cách sử dụng t-SNE một cách hiệu quả. Nó sẽ làm cho việc sử dụng TSNE của bạn hiệu quả hơn.

Đối với các gói, sử dụng Rtsne in R hoặc sklearn.manifold.TSNE trong python


2

Tôi sẽ trích dẫn Câu hỏi thường gặp từ trang web t-SNE . Đầu tiên cho sự bối rối:

Tôi nên đặt sự bối rối trong t-SNE như thế nào?

Hiệu suất của t-SNE khá mạnh mẽ trong các cài đặt khác nhau của sự bối rối. Giá trị phù hợp nhất phụ thuộc vào mật độ dữ liệu của bạn. Nói một cách lỏng lẻo, người ta có thể nói rằng một bộ dữ liệu lớn hơn / dày đặc hơn đòi hỏi sự bối rối lớn hơn. Các giá trị tiêu biểu cho phạm vi bối rối trong khoảng từ 5 đến 50.

Đối với tất cả các thông số khác, tôi sẽ xem xét việc đọc này:

Làm cách nào tôi có thể khẳng định chất lượng của các hình ảnh trực quan mà t-SNE xây dựng?

Tốt nhất, chỉ cần nhìn vào chúng! Lưu ý rằng t-SNE không giữ khoảng cách nhưng xác suất, do đó, đo một số lỗi giữa khoảng cách Euclide ở mức cao D và thấp-D là vô ích. Tuy nhiên, nếu bạn sử dụng cùng một dữ liệu và sự bối rối, bạn có thể so sánh các phân kỳ Kullback-Leibler mà t-SNE báo cáo. Hoàn toàn ổn khi chạy t-SNE mười lần và chọn giải pháp có độ phân kỳ KL thấp nhất.

Nói cách khác, điều đó có nghĩa là: nhìn vào cốt truyện, nếu trực quan hóa tốt, đừng thay đổi các tham số. Bạn cũng có thể chọn chạy với độ phân kỳ KL thấp nhất cho mỗi trường hợp bối rối cố định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.