Mục đích trực quan hóa dữ liệu chiều cao?


23

Có nhiều kỹ thuật để hiển thị các bộ dữ liệu kích thước cao, chẳng hạn như T-SNE, isomap, PCA, PCA được giám sát, v.v. Và chúng tôi trải qua các chuyển động của việc chiếu dữ liệu xuống không gian 2D hoặc 3D, vì vậy chúng tôi có một "hình ảnh đẹp ". Một số phương pháp nhúng (học đa dạng) được mô tả ở đây .

nhập mô tả hình ảnh ở đây

Nhưng "bức tranh đẹp" này có thực sự có ý nghĩa? Những hiểu biết có thể có mà ai đó có thể lấy bằng cách cố gắng hình dung không gian nhúng này?

Tôi yêu cầu bởi vì chiếu xuống không gian nhúng này thường là vô nghĩa. Ví dụ: nếu bạn chiếu dữ liệu của mình xuống các thành phần chính do PCA tạo ra, các thành phần chính đó (eiganvector) sẽ không tương ứng với các tính năng trong bộ dữ liệu; chúng là không gian đặc trưng của riêng chúng.

Tương tự, t-SNE chiếu dữ liệu của bạn xuống một khoảng trắng, trong đó các mục ở gần nhau nếu chúng giảm thiểu một số phân kỳ KL. Đây không phải là không gian tính năng ban đầu nữa. (Sửa lỗi cho tôi nếu tôi sai, nhưng tôi thậm chí không nghĩ rằng có một nỗ lực lớn của cộng đồng ML để sử dụng t-SNE để hỗ trợ phân loại; mặc dù đó là một vấn đề khác với trực quan hóa dữ liệu.)

Tôi chỉ rất bối rối tại sao mọi người tạo ra một vấn đề lớn như vậy về một số hình ảnh này.


Nó không chỉ là về "bức tranh đẹp" mà mục đích trực quan hóa dữ liệu chiều cao cũng tương tự để hiển thị dữ liệu 2/3 chiều thông thường. ví dụ tương quan, ranh giới và ngoại lệ.
eliasah

@eliasah: Tôi hiểu điều đó. Nhưng không gian mà bạn chiếu dữ liệu của mình không còn là không gian ban đầu nữa, có thể làm biến dạng một số hình dạng ở kích thước cao. Giả sử bạn có một đốm màu trong 4 chiều. Ngay khi bạn chiếu nó xuống 2D hoặc 3D, cấu trúc của bạn đã bị phá hủy.
hlin117

Không phải nếu dữ liệu nằm trong một đa tạp chiều thấp, giống như trong hình minh họa của bạn. Xác định đa tạp này là mục tiêu của việc học đa dạng.
Emre

Câu trả lời:


9

Tôi lấy Xử lý ngôn ngữ tự nhiên làm ví dụ vì đó là lĩnh vực mà tôi có nhiều kinh nghiệm hơn nên tôi khuyến khích người khác chia sẻ hiểu biết của họ trong các lĩnh vực khác như trong Thị giác máy tính, Thống kê sinh học, chuỗi thời gian, v.v. Tôi chắc chắn trong các lĩnh vực đó có ví dụ tương tự.

Tôi đồng ý rằng đôi khi trực quan hóa mô hình có thể là vô nghĩa nhưng tôi nghĩ mục đích chính của trực quan hóa loại này là để giúp chúng tôi kiểm tra xem mô hình có thực sự liên quan đến trực giác của con người hay một mô hình (không tính toán) nào khác không. Ngoài ra, Phân tích dữ liệu thăm dò có thể được thực hiện trên dữ liệu.

Giả sử chúng ta có một mô hình nhúng từ được xây dựng từ kho văn bản của Wikipedia bằng Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

Sau đó, chúng ta sẽ có một vectơ 100 chiều cho mỗi từ được biểu thị trong kho văn bản đó có mặt ít nhất hai lần. Vì vậy, nếu chúng ta muốn hình dung những từ này, chúng ta sẽ phải giảm chúng xuống 2 hoặc 3 chiều bằng thuật toán t-sne. Đây là nơi phát sinh những đặc điểm rất thú vị.

Lấy ví dụ:

vectơ ("vua") + vectơ ("đàn ông") - vectơ ("đàn bà") = vectơ ("nữ hoàng")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vector/

Ở đây mỗi hướng mã hóa các tính năng ngữ nghĩa nhất định. Điều tương tự có thể được thực hiện trong 3d

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(nguồn: tenorflow.org )

Xem làm thế nào trong ví dụ này thì quá khứ được đặt ở một vị trí nhất định tương ứng với phân từ của nó. Giống nhau cho giới tính. Tương tự với các quốc gia và thủ đô.

Trong thế giới nhúng từ, những người mẫu già hơn và ngây thơ hơn, không có tài sản này.

Xem bài giảng Stanford này để biết thêm chi tiết. Các biểu diễn Vector từ đơn giản: word2vec, GloVe

Chúng chỉ bị giới hạn trong việc phân cụm các từ tương tự lại với nhau mà không liên quan đến ngữ nghĩa (giới tính hoặc động từ không được mã hóa thành chỉ đường). Các mô hình không có gì đáng ngạc nhiên có mã hóa ngữ nghĩa làm hướng trong các kích thước thấp hơn thì chính xác hơn. Và quan trọng hơn, chúng có thể được sử dụng để khám phá từng điểm dữ liệu theo cách phù hợp hơn.

Trong trường hợp cụ thể này, tôi không nghĩ rằng t-SNE được sử dụng để hỗ trợ phân loại theo từng se, nó giống như một kiểm tra độ tỉnh táo cho mô hình của bạn và đôi khi để tìm hiểu sâu sắc về kho văn bản cụ thể mà bạn đang sử dụng. Đối với vấn đề của các vectơ không còn trong không gian tính năng ban đầu nữa. Richard Socher giải thích trong bài giảng (liên kết ở trên) rằng các vectơ chiều thấp chia sẻ các phân phối thống kê với biểu diễn lớn hơn của riêng nó cũng như các thuộc tính thống kê khác giúp phân tích trực quan hợp lý trong các vectơ nhúng kích thước thấp hơn.

Tài nguyên & Nguồn hình ảnh bổ sung:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vector/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Trước hết lời giải thích của bạn về các phương pháp là đúng. Vấn đề là các thuật toán nhúng không chỉ trực quan hóa mà về cơ bản là giảm độ chụm để đối phó với hai vấn đề chính trong Phân tích dữ liệu thống kê, đó là Curse of DimentionaliyVấn đề kích thước mẫu thấp để chúng không được mô tả các đặc điểm hiểu vật lý và chúng không chỉ có ý nghĩa mà còn cần thiết cho phân tích dữ liệu!

Trên thực tế, trực quan hóa gần như là cách sử dụng cuối cùng của phương pháp nhúng. Chiếu dữ liệu chiều cao vào không gian có chiều thấp hơn giúp duy trì khoảng cách theo cặp thực tế (chủ yếu là Euclide) bị biến dạng ở kích thước cao hoặc thu được nhiều thông tin nhất được nhúng trong phương sai của các tính năng khác nhau.


10

Richard Hamming được gán cho câu: "Mục đích của điện toán là cái nhìn sâu sắc, không phải con số." Trong bài báo học thuật năm 1973 này (xem thảo luận trong Tập dữ liệu nổi tiếng trông hoàn toàn khác nhau nhưng có số liệu thống kê tóm tắt tương tự?), Francis Anscombe lập luận rằng "đồ thị là điều cần thiết để phân tích thống kê tốt." Bộ tứ của Anscombe là một yêu thích từ lâu: cùng thống kê và hồi quy, kích thước thấp, nhưng hành vi rất khác nhau, liên quan đến tiếng ồn, ngoại lệ, phụ thuộc. Phép chiếu dữ liệu theo 11 chiều lên hai chiều được hiển thị bên dưới khá sai lệch: một chiều có tương quan và phân tán, thứ hai (từ dưới xuống) có khớp chính xác, ngoại trừ một chiều. Thứ ba có mối quan hệ rõ ràng, nhưng không tuyến tính. Thứ tư cho thấy các biến có khả năng không liên quan, ngoại trừ một ngưỡng.

nhập mô tả hình ảnh ở đây

Trong cuốn sách Phân tích đa biến cho Khoa học xã hội và sinh học của Bruce L. Brown và cộng sự. , chúng tôi có thể tìm ra:

Trong tác phẩm "Vẽ mọi thứ cùng nhau" năm 1990, Latour tuyên bố rằng suy nghĩ của các nhà khoa học khó tính là một trong những nỗi ám ảnh dữ dội của Hồi giáo với biểu đồ

Cho dù giới hạn trong không gian 3D, tối đa sáu ô chiều (không gian, màu sắc, hình dạng và thời gian) hoặc thậm chí tưởng tượng ra chiều thứ mười , con người có tầm nhìn hạn chế. Mối quan hệ giữa các hiện tượng quan sát được: không.

Ngoài ra, lời nguyền của các kích thước được sắp xếp với các nghịch lý kích thước thậm chí thấp, để đưa ra một vài điều:

Ngay cả khi tất cả các chỉ tiêu tương đương trong các kích thước hữu hạn, mối quan hệ giữa các biến có thể gây hiểu nhầm. Đây là một lý do để bảo tồn khoảng cách từ không gian này sang không gian khác. Các khái niệm như vậy là trung tâm của các tín hiệu nhúng kích thước thấp hơn cho các tín hiệu (như cảm biến nénbổ đề Johnson-Lindenstauss liên quan đến các điểm nhúng biến dạng thấp của các điểm từ chiều cao vào không gian Euclide chiều thấp) hoặc các tính năng ( biến đổi tán xạ để phân loại) .

Vì vậy, trực quan hóa là một trợ giúp khác trong việc hiểu biết sâu sắc về dữ liệu và nó đi đôi với các tính toán, bao gồm giảm kích thước.

Ví dụ cuối cùng: đặt spheres chạm vào một -cube (bong bóng bên trong hộp, được lấy từ Do các nhà toán học giỏi hình dung mọi thứ (thậm chí đại số)? ):nnn

Nghịch lý hộp pizza

Trong hai chiều, quả bóng màu xanh trung tâm là nhỏ. Trong 3D cũng vậy. Nhưng rất nhanh, quả bóng trung tâm phát triển và bán kính của nó vượt quá khối lập phương. Cái nhìn sâu sắc này là quan trọng n cụm, ví dụ.


4

Dựa trên các tuyên bố và các cuộc thảo luận, tôi nghĩ có một điểm quan trọng để phân biệt. Việc chuyển đổi sang không gian chiều thấp hơn có thể làm giảm thông tin, điều này khác với việc làm cho thông tin trở nên vô nghĩa . Hãy để tôi sử dụng một tương tự sau đây:

Quan sát hình ảnh (2D) về thế giới của chúng ta (3D) là một thông lệ. Một phương pháp trực quan chỉ cung cấp các loại kính khác nhau để xem một không gian có chiều cao.

Một điều tốt để tin tưởng vào một phương pháp trực quan là hiểu được nội bộ. Ví dụ yêu thích của tôi là MDS . Nó rất dễ dàng có thể thực hiện phương pháp này ở riêng bạn sử dụng một số công cụ tối ưu hóa (ví dụ như R optim ). Vì vậy, bạn có thể xem cách các từ phương thức, bạn có thể đo lỗi của kết quả, v.v.

Cuối cùng, bạn nhận được một hình ảnh lưu giữ sự giống nhau của dữ liệu gốc với một mức độ chính xác nào đó. Không nhiều, nhưng không ít.


4

Đôi khi, nó có ý nghĩa để hình dung dữ liệu chiều cao vì nó có thể cho chúng ta biết vật lý.

Có ít nhất một ví dụ trong vật lý thiên văn nơi bạn chiếu dữ liệu của mình xuống các thành phần chính do PCA tạo ra và các thành phần chính đó tương ứng với nhiều hiểu biết vật lý về các thiên hà. Để biết chi tiết, xem hình cuối cùng trong http://www.astroml.org/sklearn_tutorial/dimensionality_redraction.html#id2

và tờ giấy trong

http://iopscience.iop.org/article/10.1086/425626/pdf

Đây là ý tưởng cơ bản. Các tác giả áp dụng PCA cho nhiều quang phổ (ví dụ 10.000) từ kính viễn vọng. Mỗi phổ có ~ 1000 thuộc tính. Vì tập dữ liệu này có kích thước lớn, thật khó để hình dung nó. Tuy nhiên, 4 thành phần đầu tiên từ PCA tiết lộ nhiều vật lý về quang phổ (xem các phần 4.1-4.4 trong bài viết trên).


4

Thực hiện một cách tiếp cận hơi khác so với các câu trả lời tuyệt vời khác ở đây, "bức tranh đẹp" đáng giá cả ngàn lời nói. Cuối cùng, bạn sẽ cần truyền đạt kết quả của mình cho một người không biết chữ, hoặc đơn giản là không có thời gian, sự quan tâm, hoặc bất cứ điều gì, để nắm bắt toàn bộ tình huống. Điều đó không có nghĩa là chúng ta không thể giúp người đó hiểu, ít nhất là một khái niệm chung hoặc một phần của thực tế. Đây là những gì mà những cuốn sách như Freakonomics thực hiện - có rất ít hoặc không có toán học, không có bộ dữ liệu và những phát hiện vẫn được trình bày.

Từ nghệ thuật, hãy nhìn vào Thống chế Ney tại Khóa tu ở Nga . Sự đơn giản hóa lớn này của các cuộc chiến Napoleonic vẫn truyền đạt ý nghĩa to lớn và cho phép mọi người thậm chí có kiến ​​thức dốt nát nhất về cuộc chiến để hiểu được sự tàn bạo, khí hậu, cảnh quan, cái chết và đàng hoàng đã thấm vào cuộc xâm lược của Nga.

Cuối cùng, các biểu đồ chỉ đơn giản là giao tiếp, và dù tốt hay xấu, giao tiếp của con người thường tập trung vào sự kết hợp, đơn giản hóa và ngắn gọn.


3

Câu hỏi tuyệt vời. Trong chương 4 của "Chiếu sáng con đường, Chương trình nghiên cứu và phát triển cho phân tích trực quan" của James J. Thomas và Kristin A. Cook là một cuộc thảo luận về biểu diễn dữ liệu và biến đổi dữ liệu. Trong nghiên cứu của tôi, tôi đã tiếp cận câu hỏi này trong bối cảnh PCA và phân tích nhân tố. Câu trả lời ngắn gọn của tôi là các trực quan hóa rất hữu ích nếu một người có chuyển đổi dữ liệu để chuyển từ không gian trực quan hóa sang không gian dữ liệu gốc. Điều này cũng sẽ được tiến hành trong khuôn khổ phân tích trực quan.


Có một ánh xạ từ không gian chiếu đến không gian ban đầu có ý nghĩa. Tuy nhiên, có trường hợp sử dụng nào khác không?
hlin117

Tôi cũng đã xem chương 4 của "Chiếu sáng con đường, Chương trình nghiên cứu và phát triển cho phân tích trực quan". Nó không đề cập gì về trực quan hóa chiều cao trên một không gian con có thể nhìn thấy.
hlin117
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.