Trực quan hóa và quá mức: Thay thế cho phân tán


8

Tôi có một tập hợp lớn dữ liệu quốc gia đông đúc (như bạn có thể thấy bên dưới), nhưng tôi cần nhãn và các ngoại lệ - Tôi cũng có rất nhiều biểu đồ, vì vậy sẽ rất tẻ nhạt khi đặt lại cửa sổ và thêm dữ liệu sai cho các ngoại lệ.

Có một sự thay thế tốt cho một scatterplot có thể tốt hơn trong tình huống như vậy không? Tôi thực sự muốn làm một bản đồ, nhưng tôi cần cả hai phần của cặp được đặt hàng được hiển thị.

nhập mô tả hình ảnh ở đây


1
Điều này gây ấn tượng với tôi như khó trả lời ở dạng hiện tại của nó. Bạn có thể cung cấp thêm thông tin về tình hình, dữ liệu và mục tiêu của bạn không? Các biến là gì? Bạn chỉ cần xác định các ngoại lệ bằng cách nào đó (ví dụ: một cách tiếp cận không dựa trên trực quan hóa có ổn không)? Phần mềm nào bạn đang sử dụng? Bạn chỉ đang yêu cầu mã? (Nếu vậy, câu hỏi sẽ lạc đề ở đây.) V.v.
gung - Tái lập Monica

Có những phần mềm (theo R, tôi nghĩ) sẽ cố gắng đặt nhãn để chúng không bị quá tải. Ngoài ra, nếu bạn có tất cả các nhãn mà bạn không cần điểm, nhãn sẽ thực hiện công việc! Hãy thử với kích thước phông chữ nhỏ hơn và thậm chí có thể với các phông chữ có thể nhìn xuyên qua, không nhớ tên, nên có thể có trong R, bằng cách thay đổi độ trong suốt. Hãy xem ggplot2, hoặc F Harrells Design, có thể là một cái gì đó trong đó.
kjetil b halvorsen

Câu trả lời:


13

Một vài kỹ thuật được thể hiện trong cốt truyện này tôi đã thực hiện vài tháng trước.

  1. Chỉ gắn nhãn các điểm "thú vị" và dựa vào nhãn di chuột để xác định các điểm khác theo yêu cầu. Điều này đòi hỏi sự can thiệp của con người để làm tốt, mặc dù phần mềm có thể đến gần với các heuristic như chỉ hiển thị nhãn khi chúng có thể được hiển thị mà không bị chồng chéo.

  2. Chuyển đổi quy mô, chẳng hạn như với các bản ghi hoặc lượng tử. Sự thận trọng ở đây là quy mô không còn phù hợp trực tiếp với nhận thức của chúng ta. Người xem phải giữ sự chuyển đổi trong tâm trí.

nhập mô tả hình ảnh ở đây

Sự lựa chọn khác:

  1. Sử dụng bội số hoặc bội nhỏ . Đó là, hiển thị một loạt các biểu đồ, mỗi biểu đồ có một tập hợp con các điểm, chẳng hạn như một biểu đồ cho mỗi vùng cho dữ liệu quốc gia của bạn.

  2. Sử dụng các biểu đồ đơn biến được liên kết, chẳng hạn như thanh hoặc dấu chấm, để nhãn nằm trong trục. Nó giúp nếu bạn có thể sắp xếp theo một trong hai biến tương tác.

nhập mô tả hình ảnh ở đây


Tôi yêu cốt truyện ở phía trên; bạn đã phát hành mã cho nó ở đâu đó chưa? "Đó là, hiển thị một loạt biểu đồ, mỗi biểu đồ có một tập hợp con các điểm, chẳng hạn như một biểu đồ cho từng vùng cho dữ liệu quốc gia của bạn" là một điểm tốt - Nick Cox có một câu trả lời xuất sắc ở đâu đó, cho thấy cách thực hiện điều này trong Stata (Tôi nghĩ rằng anh ấy đã viết một gói cho nó). Tôi sẽ xem nếu tôi có thể theo dõi nó và liên kết nó.
Cá bạc

Cảm ơn @Silverfish! Tôi đã tạo ra âm mưu phân tán tương tác trong JMP (sản phẩm của công ty tôi) với các nhãn được điều chỉnh bằng tay và các phần màu hồng được thêm vào theo chương trình. Những nguy hiểm của việc "xuất bản" lên Twitter - Tôi cần đăng nó ở đâu đó với một chút giải thích, dữ liệu và tập lệnh. Sẽ theo dõi với một liên kết ở đây nếu tôi thành công.
xan

1
@Silverfish Bạn có thể nghĩ về các bài đăng trên Statalist, ví dụ: statalist.org/forums/forum/general-stata-discussion/general/
Nick Cox

1
Dữ liệu và tập lệnh cho biểu đồ đầu tiên của tôi có tại Community.jmp.com/docs/DOC-7108 .
xan

@Nick Cox Đúng vậy! Thực sự tôi nghĩ rằng tôi đã nhìn thấy nó trong: Cox, NJ 2010, "Các tập con đồ thị", Tạp chí Stata , 10 : 670-681. Nhưng đồ họa màu trong bài đăng của Statalist thực sự làm cho nó rõ ràng hơn. Liên kết đến bài viết trên tạp chí là www.stata-journal.com/sjpdf.html?articlenum=gr0046 (Tôi nghi ngờ dấu chấm hỏi đang dừng nó xuất hiện dưới dạng siêu liên kết)
Silverfish

5

Nếu bạn muốn một giải pháp thay thế cho một biểu đồ phân tán, thì một biểu đồ tọa độ song song có thể hoạt động, đặc biệt nếu bạn đang cố gắng hiển thị mối quan hệ giữa nhiều biến. Bạn "có rất nhiều đồ thị" và một đồ thị tọa độ song song có thể giảm xuống còn một đồ thị! Dưới đây là một ví dụ về tập dữ liệu Iris nổi tiếng , được lấy từ Wikipedia ( tín dụng hình ảnh ):

Biểu đồ tọa độ song song cho dữ liệu mống mắt

Cốt truyện cho thấy sự khác biệt giữa các loài rất rõ ràng. Thay vào đó, bạn có thể chọn tô màu theo vùng địa lý hoặc mức độ phát triển. Chúng ta có thể thấy thật khó để phân biệt ba loài dựa trên chiều rộng của vùng kín, nhưng có sự phân tách nhiều hơn về chiều dài cánh hoa của chúng. Sau một chút điều chỉnh tinh thần (mắt chúng ta có thể được đào tạo quá mức để tìm kiếm "độ dốc hướng lên"), rõ ràng có mối tương quan dương giữa chiều rộng cánh hoa và chiều dài cánh hoa vì chiều rộng cánh hoa cao hơn có liên quan đến chiều dài cánh hoa cao hơn. Hoa ở đỉnh của thang đo cho một, có xu hướng ở đỉnh của thang kia - điều này được biểu hiện trong các đường gần như song song chạy giữa các trục. Mặt khác, có một mối tương quan nghịch giữa chiều rộng và chiều dài vùng kín,

Hình ảnh quản lý để nắm bắt nhiều thông tin có sẵn trong toàn bộ ma trận các biểu đồ phân tán ( tín dụng hình ảnh ):

Ma trận phân tán cho dữ liệu mống mắt

Về mặt tích cực, biểu đồ trục song song cho chúng ta khả năng theo dõi một cá nhân qua tất cả các biến được đo: nếu chúng ta thấy hai điểm thú vị trên hai biểu đồ phân tán riêng biệt, đặc biệt là các ngoại lệ, có thể không rõ liệu chúng có đại diện cho cùng một cá nhân không, nhưng trên một đồ thị trục song song chúng ta chỉ có thể "theo luồng". Mặt khác, bỏ tất cả những âm mưu phân tán đó sẽ ném đi thông tin về các mối quan hệ đa biến. Rõ ràng nhất, chúng ta không thể thấy một số chi tiết của phân cụm rõ ràng như vậy (mặc dù lưu ý Nick Cox khuyến nghị các lô phối hợp song song cho mục đích điều tra cách phân cụm "sâu" đi qua các biến) và khả năng phân biệt tuyến tính bị che khuất hoàn toàn. Ngoài ra, có thể khó thấy được mối tương quan giữa các trục cách xa nhau trên biểu đồ tọa độ song song,

Nếu bạn có tùy chọn tương tác, thay vì trực quan tĩnh, sau đó các ô tọa độ song song cung cấp cho bạn một số tùy chọn để khắc phục điều này. Ví dụ, người dùng có thể chuyển đổi thứ tự của các trục, đặt các biến cạnh nhau để thấy mối quan hệ rõ ràng hơn. Do tương quan dương và âm hoạt động rất khác nhau trên biểu đồ tọa độ song song, nên có thể lật một trục (nếu bạn đảo ngược hướng của trục có tương quan âm với trục liền kề, thì các đường giữa chúng sẽ được "gỡ rối" ). Ngay cả trên một biểu đồ tĩnh, hiệu quả nhất là đảo ngược các trục để tạo ra càng nhiều tương quan dương càng tốt và sắp xếp các trục để tạo ra các mối tương quan liên tiếp mạnh nhất có thể, vì khó có thể đi theo một sợi dây qua một mớ (xem Nick Cox trên điểm này).

Có lẽ tính năng tương tác quan trọng nhất là đánh răng và liên kết : người dùng có thể chọn, ví dụ: phần tư trên của các cá nhân dựa trên một biến và các dòng của họ được tự động tô sáng trong suốt quá trình của âm mưu. Nếu trên một trục khác, các điểm chủ yếu quanh đỉnh được tô sáng, thì điều này cho thấy mối tương quan tích cực (nhưng chúng ta nên kiểm tra xem phần tư thấp hơn có được liên kết với các điểm xung quanh đáy của biến thứ hai không); nếu các điểm chủ yếu quanh đáy được tô sáng, nó gợi ý tương quan âm; nếu một lựa chọn các điểm nằm rải rác ngẫu nhiên trên toàn bộ trục lên được tô sáng, thì nó gợi ý rất ít sự tương quan.

Với số lượng quốc gia bạn bao gồm, có vẻ khó dán nhãn tất cả chúng trên bất kỳ lô đất nào trừ khi bạn có những hạn chế về không gian rộng rãi khác thường. Bạn có thể phải giải quyết để làm nổi bật chỉ các quốc gia cá nhân quan trọng nhất. Trên hình ảnh tương tác, nhãn di chuột có thể tránh sự lộn xộn (như @xan chỉ ra) và có lẽ bạn có thể cho phép người dùng đánh dấu tất cả các quốc gia trong một khu vực nhất định (hoặc một số nhóm khác) có thể tự động hiển thị nhãn của họ.

Nếu bạn chỉ sử dụng một số lượng hạn chế nhãn, một nơi bạn có thể xem xét đặt chúng nằm trên trục. Nếu bạn nhìn vào Hiển thị trực quan thông tin định lượng của Edward Tufte , Chương 7: Các yếu tố đồ họa đa chức năng, bạn sẽ thấy điều này gần giống với đề xuất của Tufte về cái mà ông gọi là "đồ họa bảng" cho biên lai thuế của chính phủ ( nó có thể quen thuộc hơn với bạn như một "máy chiếu"). Mỗi trục trở thành một loại bảng xếp hạng, đó là một tính năng hay. (Có một số khác biệt giữa các cách tiếp cận, đặc biệt là khi bảng đồ họa ví dụ của Tufte sử dụng cùng một đơn vị và tỷ lệ trên mỗi trục, thay vì chuẩn hóa dữ liệu để khớp và vì "trục" của anh ta biểu thị khoảng thời gian sớm hơn và muộn hơn, độ dốc có một cách hiểu bổ sung là tốc độ tăng trưởng. Những cách giải thích đó thường không giữ cho một biểu đồ tọa độ song song, nhưng ý tưởng về bảng xếp hạng trên mỗi trục thì có.)

Liên kết và tài liệu tham khảo


1
+1. Cảm ơn đã đề cập. Lưu ý rằng việc kết hợp màu đỏ và màu xanh lá cây tạo ra một thách thức cho nhiều người, đặc biệt là khi biểu tượng giống nhau! Đỏ, xanh và đen sẽ hoạt động tốt hơn.
Nick Cox

@Nick Có Tôi nghĩ rằng đây không phải là những ví dụ rất hay về mặt đó - Tôi chỉ mượn chúng vì chúng được cấp phép tự do (trên Wikipedia). Nếu tôi có thể tìm thấy các ví dụ được cấp phép tự do tốt hơn, tôi sẽ thay thế chúng (hoặc nếu tôi có một chút thời gian để làm cho riêng mình).
Cá bạc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.