Tôi lấy Xử lý ngôn ngữ tự nhiên làm ví dụ vì đó là lĩnh vực mà tôi có nhiều kinh nghiệm hơn nên tôi khuyến khích người khác chia sẻ hiểu biết của họ trong các lĩnh vực khác như trong Thị giác máy tính, Thống kê sinh học, chuỗi thời gian, v.v. Tôi chắc chắn trong các lĩnh vực đó có ví dụ tương tự.
Tôi đồng ý rằng đôi khi trực quan hóa mô hình có thể là vô nghĩa nhưng tôi nghĩ mục đích chính của trực quan hóa loại này là để giúp chúng tôi kiểm tra xem mô hình có thực sự liên quan đến trực giác của con người hay một mô hình (không tính toán) nào khác không. Ngoài ra, Phân tích dữ liệu thăm dò có thể được thực hiện trên dữ liệu.
Giả sử chúng ta có một mô hình nhúng từ được xây dựng từ kho văn bản của Wikipedia bằng Gensim
model = gensim.models.Word2Vec(sentences, min_count=2)
Sau đó, chúng ta sẽ có một vectơ 100 chiều cho mỗi từ được biểu thị trong kho văn bản đó có mặt ít nhất hai lần. Vì vậy, nếu chúng ta muốn hình dung những từ này, chúng ta sẽ phải giảm chúng xuống 2 hoặc 3 chiều bằng thuật toán t-sne. Đây là nơi phát sinh những đặc điểm rất thú vị.
Lấy ví dụ:
vectơ ("vua") + vectơ ("đàn ông") - vectơ ("đàn bà") = vectơ ("nữ hoàng")
Ở đây mỗi hướng mã hóa các tính năng ngữ nghĩa nhất định. Điều tương tự có thể được thực hiện trong 3d
(nguồn: tenorflow.org )
Xem làm thế nào trong ví dụ này thì quá khứ được đặt ở một vị trí nhất định tương ứng với phân từ của nó. Giống nhau cho giới tính. Tương tự với các quốc gia và thủ đô.
Trong thế giới nhúng từ, những người mẫu già hơn và ngây thơ hơn, không có tài sản này.
Xem bài giảng Stanford này để biết thêm chi tiết.
Các biểu diễn Vector từ đơn giản: word2vec, GloVe
Chúng chỉ bị giới hạn trong việc phân cụm các từ tương tự lại với nhau mà không liên quan đến ngữ nghĩa (giới tính hoặc động từ không được mã hóa thành chỉ đường). Các mô hình không có gì đáng ngạc nhiên có mã hóa ngữ nghĩa làm hướng trong các kích thước thấp hơn thì chính xác hơn. Và quan trọng hơn, chúng có thể được sử dụng để khám phá từng điểm dữ liệu theo cách phù hợp hơn.
Trong trường hợp cụ thể này, tôi không nghĩ rằng t-SNE được sử dụng để hỗ trợ phân loại theo từng se, nó giống như một kiểm tra độ tỉnh táo cho mô hình của bạn và đôi khi để tìm hiểu sâu sắc về kho văn bản cụ thể mà bạn đang sử dụng. Đối với vấn đề của các vectơ không còn trong không gian tính năng ban đầu nữa. Richard Socher giải thích trong bài giảng (liên kết ở trên) rằng các vectơ chiều thấp chia sẻ các phân phối thống kê với biểu diễn lớn hơn của riêng nó cũng như các thuộc tính thống kê khác giúp phân tích trực quan hợp lý trong các vectơ nhúng kích thước thấp hơn.
Tài nguyên & Nguồn hình ảnh bổ sung:
http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vector/
https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F
http://deeplearning4j.org/word2vec.html
https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F