Khi nào trực quan hóa dữ liệu tương tác hữu ích để sử dụng?


17

Trong khi chuẩn bị cho một cuộc nói chuyện tôi sẽ sớm đưa ra, gần đây tôi đã bắt đầu đào sâu vào hai công cụ chính (Miễn phí) để trực quan hóa dữ liệu tương tác: GGobimondrian - cả hai đều cung cấp một loạt các khả năng (ngay cả khi chúng có một chút lỗi).

Tôi muốn nhờ bạn giúp đỡ trong việc nói rõ (cả với bản thân tôi và cho khán giả tương lai của tôi) Khi nào thì hữu ích khi sử dụng các lô tương tác? Hoặc để khám phá dữ liệu (cho chính chúng ta) và trình bày dữ liệu (cho một "khách hàng")?

Để giải thích dữ liệu cho khách hàng, tôi có thể thấy giá trị của hình ảnh động cho:

  • Sử dụng "xác định / liên kết / đánh răng" để xem điểm dữ liệu nào trong biểu đồ là gì.
  • Trình bày phân tích độ nhạy của dữ liệu (ví dụ: "nếu chúng tôi loại bỏ điểm này, đây là những gì chúng tôi sẽ nhận được)
  • Hiển thị ảnh hưởng của các nhóm khác nhau trong dữ liệu (ví dụ: "hãy xem biểu đồ của chúng tôi dành cho nam và bây giờ cho nữ")
  • Hiển thị ảnh hưởng của thời gian (hoặc tuổi tác hoặc nói chung, cung cấp một khía cạnh khác cho bản trình bày)

Để tự khám phá dữ liệu, tôi có thể thấy giá trị của nhận dạng / liên kết / đánh răng khi khám phá một ngoại lệ trong bộ dữ liệu mà chúng tôi đang làm việc.

Nhưng khác hai ví dụ này, tôi không chắc những gì sử dụng thực tế khác mà các kỹ thuật này cung cấp. Đặc biệt là cho thăm dò dữ liệu của chúng ta!

Có thể lập luận rằng phần tương tác là tốt để khám phá (Ví dụ) một hành vi khác nhau của các nhóm / cụm khác nhau trong dữ liệu. Nhưng khi (trong thực tế) tôi đã tiếp cận tình huống như vậy, điều tôi có xu hướng làm là chạy các quy trình thống kê có liên quan (và các bài kiểm tra sau đại học) - và điều mà tôi thấy là có ý nghĩa, sau đó tôi sẽ vẽ các màu sắc phân chia rõ ràng dữ liệu cho các nhóm liên quan. Từ những gì tôi đã thấy, đây là một cách tiếp cận an toàn hơn sau đó "tự hỏi xung quanh" dữ liệu (có thể dễ dàng dẫn đến việc nạo vét dữ liệu (phạm vi so sánh nhiều cần thiết để hiệu chỉnh thậm chí không rõ ràng).

Tôi rất vui khi đọc kinh nghiệm / suy nghĩ của bạn về vấn đề này.

(câu hỏi này có thể là wiki - mặc dù nó không chủ quan và một câu trả lời được suy nghĩ kỹ sẽ sẵn sàng giành được "câu trả lời" của tôi :))


3
Ít nhất trong trường hợp của tôi, tôi có phần trong cùng một chiếc thuyền. Tôi đánh giá cao Mondrian và luôn cập nhật nó, nhưng khi tôi thực sự khám phá một bộ dữ liệu mới, nó có xu hướng ở R, ít tương tác hơn nhưng nhìn chung linh hoạt hơn. Tôi bắt đầu viết cho bạn một câu trả lời đầy đủ và nhận ra rằng tôi đang nói theo lý thuyết chứ không phải từ kinh nghiệm thực tế.
Wayne

Câu trả lời:


8

Ngoài việc liên kết dữ liệu định lượng hoặc định tính với các mô hình không gian, như được minh họa bởi @whuber, tôi muốn đề cập đến việc sử dụng EDA, với việc chải và các sơ đồ liên kết với nhau, để phân tích dữ liệu theo chiều dọcchiều cao .

Cả hai đều được thảo luận trong cuốn sách tuyệt vời, Đồ họa tương tác và động để phân tích dữ liệu với R và GGobi , bởi Dianne Cook và Deborah F. Swayne (Springer UseR!, 2007), mà bạn chắc chắn biết. Các tác giả đã có một cuộc thảo luận thú vị về EDA trong Chương 1, chứng minh sự cần thiết của EDA để "buộc chúng ta bất ngờ", trích dẫn John Tukey (trang 13): Việc sử dụng màn hình tương tác và động không phải là rình mò dữ liệu , cũng không phải dữ liệu sơ bộ kiểm tra (ví dụ, hoàn toàn là tóm tắt đồ họa của dữ liệu), nhưng nó chỉ được xem như là một cuộc điều tra tương tác của dữ liệu có thể đi trước hoặc bổ sung cho mô hình thống kê dựa trên giả thuyết thuần túy.

Sử dụng GGobi cùng với giao diện R ( rggobi ) cũng giải quyết vấn đề về cách tạo đồ họa tĩnh cho báo cáo trung gian hoặc xuất bản cuối cùng, ngay cả với Projection Pursuit (trang 26-34), nhờ các gói DescribeDisplay hoặc ggplot2 .

Trong cùng một dòng, Michael Friendly từ lâu đã ủng hộ việc sử dụng trực quan hóa dữ liệu trong Phân tích dữ liệu phân loại, phần lớn được minh họa trong gói vcd, nhưng cũng trong gói vcdExtra gần đây (bao gồm cả viz động thông qua gói rgl ), mà hoạt động như một chất keo giữa các gói vcdgnm để mở rộng các mô hình log-linear. Ông gần đây đã đưa ra một bản tóm tắt tốt đẹp của công việc mà trong Carme 6 hội nghị, Tiến bộ trong Hình dung Categorical dữ liệu Sử dụng vcd, GNM và vcdExtra Gói trong R .

Do đó, EDA cũng có thể được coi là cung cấp một lời giải thích trực quan về dữ liệu (theo nghĩa là nó có thể giải thích cho các mẫu không mong muốn trong dữ liệu được quan sát), trước khi tiếp cận mô hình thống kê thuần túy hoặc song song với nó. Đó là, EDA không chỉ cung cấp các cách hữu ích để nghiên cứu cấu trúc bên trong của dữ liệu mà còn có thể giúp tinh chỉnh và / hoặc tóm tắt các mô hình thống kê được áp dụng trên đó. Đó là bản chất những gì biplots cho phép làm, ví dụ. Mặc dù họ không phải là kỹ thuật phân tích đa chiều cho mỗi gia nhập , họ là những công cụ để hình dung kết quả từ phân tích đa chiều (bằng cách đưa ra một xấp xỉvề các mối quan hệ khi xem xét tất cả các cá nhân với nhau, hoặc tất cả các biến cùng nhau, hoặc cả hai). Điểm yếu tố có thể được sử dụng trong mô hình hóa tiếp theo thay cho số liệu ban đầu để giảm tính chiều hoặc để cung cấp các mức độ đại diện trung gian.

Sidenote

Có nguy cơ bị lỗi thời, thỉnh thoảng tôi vẫn sử dụng xlispstat( Luke Tierney ). Nó có các chức năng đơn giản nhưng hiệu quả cho màn hình tương tác, hiện không có sẵn trong đồ họa cơ sở R. Tôi không biết các khả năng tương tự trong Clojure + Incanter (+ Chế biến).


8

Liên kết động của đồ họa là tự nhiên và hiệu quả để phân tích dữ liệu không gian khám phá , hoặc ESDA . Các hệ thống ESDA thường liên kết một hoặc nhiều bản đồ định lượng (như bản đồ choropleth ) với chế độ xem dạng bảng và đồ họa thống kê của dữ liệu cơ bản. Một số khả năng như vậy đã là một phần của một vài hệ thống GIS trên máy tính để bàn trong khoảng 15 năm, đặc biệt là ArcView 3 (một sản phẩm thương mại đã ngừng sản xuất). Phần mềm GeoDa miễn phí cung cấp một số khả năng này trong một môi trường được thiết kế để khám phá dữ liệu không gian và phân tích thống kê. Thật là rắc rối, với giao diện bình dị và đồ họa chưa được đánh bóng, nhưng không có lỗi.

Việc sử dụng EDA này ngăn cản sự phản đối rằng kiểm tra thống kê có thể tốt hơn thăm dò tương tác vì trong nhiều tình huống (hầu hết?) Không có mô hình thống kê rõ ràng, không có kiểm tra thống kê rõ ràng (hoặc thậm chí phù hợp) và kiểm tra giả thuyết thường không liên quan: mọi người cần phải xem những gì xảy ra , nơi nó xảy ra và để quan sát các mối quan hệ thống kê giữa các biến trong bối cảnh không gian. Không phải tất cả các phân tích dữ liệu là, hoặc thậm chí nên bao gồm các thủ tục chính thức!


Xin chào Whuber. Ví dụ về ESDA của bạn là một ví dụ tuyệt vời, cảm ơn bạn! Nếu bạn (hoặc những người khác) có thể đề xuất các ví dụ khác về thời điểm các thủ tục chính thức ít liên quan hơn - điều này sẽ hữu ích nhất.
Tal Galili

7

Đối với tôi hình dung tương tác chỉ hữu ích cho khám phá của riêng tôi, hoặc khi làm việc với một khách hàng thực tế. Khi xử lý một bản trình bày cuối cùng, tôi thích chọn biểu đồ tĩnh phù hợp nhất với quan điểm của tôi. Nếu không, khách hàng có thể bị phân tâm hoàn toàn bởi yếu tố gee-whiz.

Lợi ích lớn nhất tôi nhận được từ nó là một mức độ tốc độ giúp tôi tự do kiểm tra nhiều hơn tôi có thể nếu tôi dừng lại để lập trình một giải pháp. JMP là một trong những công cụ yêu thích của tôi vì nó tích hợp rất nhiều thứ tôi muốn vào một giao diện duy nhất. Tôi nghĩ rằng hầu hết những người là lập trình viên thống kê giỏi đều thử một cái gì đó như JMP (hoặc GGobi, v.v.) trong một khoảng thời gian quá ngắn để thực sự giỏi về nó. JMP nói riêng sẽ mang lại cho bạn ấn tượng mà bạn biết bằng cách chỉ nhìn qua các menu. Tuy nhiên, làm việc thông qua hướng dẫn là thực sự cần thiết để khám phá tất cả sức mạnh của nó.

Bạn đã đề cập đến mối quan tâm chính của tôi về mức độ tốc độ này: bạn hoàn toàn không biết ý nghĩa của giá trị p của bạn là gì. Chỉ trong vài phút, bạn có thể kiểm tra hàng trăm mối quan hệ một cách trực quan. Làm kiểm tra giả thuyết sau tất cả những điều đó là hoàn toàn sai lệch, nhưng tôi thấy mọi người làm điều đó mọi lúc.

Một tính năng tôi yêu thích trong GGobi là theo đuổi hình chiếu của nó, trong đó bạn chỉ định loại mẫu bạn tìm kiếm trong một không gian chiều cao và sau đó bạn ngồi lại và xem nó "theo đuổi" mục tiêu đó. Công cụ tuyệt vời!


2
+1. Nhận xét về các bài thuyết trình cuối cùng mang đến tâm trí, như một ví dụ đáng chú ý, bài nói chuyện TED nổi tiếng năm 2006 của Hans Rosling ( ted.com/talks/ mẹo ). Re: quan điểm về việc kiểm tra "nhiều hơn nữa", tôi nhớ lại cách một luật sư trong một vụ kiện đã hỏi tôi về cách tôi đã kiểm tra dữ liệu sao lưu lời khai của mình và khuôn mặt của cô ấy rơi khi cô ấy biết công việc đã được thực hiện tương tác như thế nào và do đó, không có gì được in hoặc lưu (mà sau đó cô ấy có thể trát hầu tòa, kiểm tra và cố gắng truyền đạt). ;-)
whuber

JMP là một trong những ứng dụng thống kê đẹp nhất hiện có. Các nhà thống kê chắc chắn nên học cách sử dụng nó, nếu chỉ để gây ấn tượng với khách hàng của họ. Nó đắt, nhưng rẻ nếu bạn là sinh viên hoặc nhân viên tại trường / cao đẳng / đại học
Neil McGuigan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.