Thuật toán phân loại nào nên sử dụng sau khi thấy rằng t-SNE phân tách các lớp tốt?


12

Giả sử chúng ta có một vấn đề phân loại và đầu tiên chúng ta muốn hiểu rõ hơn về dữ liệu và chúng ta thực hiện t-SNE. Kết quả của t-SNE phân tách các lớp rất tốt. Điều này ngụ ý rằng có thể xây dựng mô hình phân loại cũng sẽ phân tách các lớp rất tốt (nếu t-SNE không tách biệt tốt thì nó không bao hàm nhiều).

Biết rằng t-SNE tập trung vào cấu trúc cục bộ và nó có thể phân tách các lớp tốt: Các thuật toán phân loại nào sẽ hoạt động tốt trong vấn đề này? Scikit gợi ý SVM với hạt nhân RBF Gaussian, nhưng những cái khác là gì?


3
(+1) K-láng giềng gần nhất có thể là một lựa chọn tự nhiên rất đơn giản và dễ thực hiện.
amip nói rằng Phục hồi lại

Câu trả lời:


7

Đầu tiên là một câu trả lời ngắn gọn, và sau đó là một nhận xét dài hơn:

Câu trả lời

Các kỹ thuật SNE tính toán một ma trận tương tự N × N trong cả không gian dữ liệu gốc và trong không gian nhúng chiều thấp theo cách mà các điểm tương đồng tạo thành phân phối xác suất trên các cặp đối tượng. Cụ thể, các xác suất thường được đưa ra bởi một nhân Gaussian được chuẩn hóa được tính toán từ dữ liệu đầu vào hoặc từ việc nhúng. Về mặt phân loại, điều này ngay lập tức mang đến cho các phương pháp học tập dựa trên cá thể . Bạn đã liệt kê một trong số chúng: SVM's với RBF và @amoeba đã liệt kê kNN. Ngoài ra còn có các mạng chức năng cơ sở xuyên tâm , mà tôi không phải là một chuyên gia về.

Bình luận

Có nói rằng, tôi sẽ cẩn thận gấp đôi về việc suy luận về một tập dữ liệu chỉ nhìn vào các lô t-SNE. t-SNE không nhất thiết phải tập trung vào cấu trúc cục bộ. Tuy nhiên, bạn có thể điều chỉnh nó để làm như vậy bằng cách điều chỉnh perplexitytham số, quy định (một cách lỏng lẻo) cách cân bằng sự chú ý giữa các khía cạnh cục bộ và toàn cầu của dữ liệu của bạn.

Trong bối cảnh này, perplexitychính nó là một cú đâm trong bóng tối về số lượng hàng xóm gần gũi mà mỗi quan sát có thể có và được người dùng cung cấp. Bài báo gốc nêu rõ: Hiệu suất của t-SNE khá mạnh mẽ đối với những thay đổi về sự bối rối và các giá trị tiêu biểu nằm trong khoảng từ 5 đến 50. Tuy nhiên, kinh nghiệm của tôi là việc tận dụng tối đa từ t-SNE có thể có nghĩa là phân tích nhiều lô với những rắc rối khác nhau.

Nói cách khác, điều chỉnh learning rateperplexity, có thể thu được các ô 2 chiều trông rất khác nhau cho cùng một số bước đào tạo và sử dụng cùng một dữ liệu.

Tài liệu chưng cất này Cách sử dụng t-SNE Hiệu quả đưa ra một bản tóm tắt tuyệt vời về những cạm bẫy phổ biến của phân tích t-SNE. Các điểm tóm tắt là:

  1. Những siêu đường kính đó (ví dụ như tốc độ học tập, sự bối rối) thực sự quan trọng

  2. Kích thước cụm trong một âm mưu t-SNE không có nghĩa gì

  3. Khoảng cách giữa các cụm có thể không có nghĩa gì

  4. Tiếng ồn ngẫu nhiên không phải lúc nào cũng trông ngẫu nhiên.

  5. Bạn có thể thấy một số hình dạng, đôi khi

  6. Đối với cấu trúc liên kết, bạn có thể cần nhiều hơn một cốt truyện

Cụ thể từ các điểm 2, 3 và 6 ở trên, tôi sẽ suy nghĩ kỹ về việc suy luận về khả năng phân tách dữ liệu bằng cách xem xét các lô t-SNE riêng lẻ. Có nhiều trường hợp bạn có thể 'sản xuất' các ô hiển thị các cụm rõ ràng bằng cách sử dụng đúng các tham số.


1
Berkmeister: Mọi thứ bạn viết đều có ý nghĩa. Vấn đề của tôi khá dễ để mô tả: Tôi muốn làm cho mô hình phân loại tốt nhất có thể. Làm thế nào tôi có thể sử dụng nó để cải thiện chất lượng của mô hình? Dự đoán tốt nhất của tôi là t-SNE có thể 'gợi ý' phương pháp nào có thể liên quan đến vấn đề đã cho.
Tomek Tarczynski

2
Vui lòng xem chỉnh sửa, phương pháp học tập dựa trên cá thể sẽ tương thích với bất kỳ manh mối nào bạn có thể nhận được từ các lô t-SNE.
Zhubarb

2
(+1): Cảm ơn câu trả lời, tôi đã tìm kiếm chính xác cho điều này. Tôi sẽ chấp nhận câu trả lời trong vòng hai ngày.
Tomek Tarczynski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.