Trích dẫn từ một trong các tác giả:
t-Phân phối Stochastic Neighbor Nhúng (t-SNE) là một kỹ thuật ( giành giải thưởng ) để giảm kích thước, đặc biệt phù hợp để hiển thị các bộ dữ liệu chiều cao.
Nghe có vẻ khá tuyệt, nhưng đó là Tác giả đang nói.
Một trích dẫn khác của tác giả (re: cuộc thi nói trên):
Những gì bạn đã lấy đi từ cuộc thi này?
Luôn luôn trực quan hóa dữ liệu của bạn trước khi bạn bắt đầu đào tạo những người dự đoán về dữ liệu! Thông thường, các hình ảnh trực quan như những cái tôi tạo ra cung cấp cái nhìn sâu sắc về phân phối dữ liệu có thể giúp bạn xác định loại mô hình dự đoán nào sẽ thử.
Thông tin bắt buộc 1 được bị mất - đó là một sự giảm chiều kỹ thuật sau tất cả. Tuy nhiên, vì đây là một kỹ thuật tốt để sử dụng khi trực quan hóa, thông tin bị mất ít có giá trị hơn thông tin được tô sáng (/ hiển thị / có thể hiểu được thông qua việc giảm xuống 2 hoặc 3 chiều).
Vì vậy, câu hỏi của tôi là:
- Khi nào tSNE là công cụ sai cho công việc?
- Loại dữ liệu nào khiến nó không hoạt động,
- Những loại câu hỏi trông giống như nó có thể trả lời, nhưng thực tế nó không thể?
- Trong trích dẫn thứ hai ở trên, bạn nên luôn luôn trực quan hóa tập dữ liệu của mình, có nên thực hiện trực quan hóa này với tSNE không?
Tôi hy vọng rằng câu hỏi này có thể được trả lời tốt nhất trong cuộc trò chuyện, tức là trả lời: Khi nào tSNE là công cụ phù hợp cho công việc?
Tôi đã được khuyến cáo không nên dựa vào tSNE nói với tôi như thế nào dữ liệu dễ dàng sẽ được phân loại (tách thành các lớp học - một mô hình phân biệt đối xử) Ví dụ của nó là gây hiểu lầm được, rằng, đối với hai hình ảnh dưới đây, một mô hình sinh sản 2 đã tồi tệ hơn đối với dữ liệu được hiển thị ở đầu tiên / bên trái (độ chính xác 53,6%) so với dữ liệu tương đương với thứ hai / phải (độ chính xác 67,2%).
1 Tôi có thể sai về điều này Tôi có thể ngồi xuống và thử một ví dụ bằng chứng / phản biện sau
2 lưu ý rằng một mô hình thế hệ không giống như một mô hình phân biệt đối xử, nhưng đây là ví dụ tôi đã đưa ra.