Tôi sẽ trích dẫn Câu hỏi thường gặp từ trang web t-SNE . Đầu tiên cho sự bối rối:
Tôi nên đặt sự bối rối trong t-SNE như thế nào?
Hiệu suất của t-SNE khá mạnh mẽ trong các cài đặt khác nhau của sự bối rối. Giá trị phù hợp nhất phụ thuộc vào mật độ dữ liệu của bạn. Nói một cách lỏng lẻo, người ta có thể nói rằng một bộ dữ liệu lớn hơn / dày đặc hơn đòi hỏi sự bối rối lớn hơn. Các giá trị tiêu biểu cho phạm vi bối rối trong khoảng từ 5 đến 50.
Đối với tất cả các thông số khác, tôi sẽ xem xét việc đọc này:
Làm cách nào tôi có thể khẳng định chất lượng của các hình ảnh trực quan mà t-SNE xây dựng?
Tốt nhất, chỉ cần nhìn vào chúng! Lưu ý rằng t-SNE không giữ khoảng cách nhưng xác suất, do đó, đo một số lỗi giữa khoảng cách Euclide ở mức cao D và thấp-D là vô ích. Tuy nhiên, nếu bạn sử dụng cùng một dữ liệu và sự bối rối, bạn có thể so sánh các phân kỳ Kullback-Leibler mà t-SNE báo cáo. Hoàn toàn ổn khi chạy t-SNE mười lần và chọn giải pháp có độ phân kỳ KL thấp nhất.
Nói cách khác, điều đó có nghĩa là: nhìn vào cốt truyện, nếu trực quan hóa tốt, đừng thay đổi các tham số. Bạn cũng có thể chọn chạy với độ phân kỳ KL thấp nhất cho mỗi trường hợp bối rối cố định.