Chỉnh sửa III: Tôi đã tìm thấy một ví dụ tuyệt đẹp về trực quan hóa dữ liệu định lượng đa biến, và phải thêm nó. Bạn sẽ tìm thấy nó dưới tiêu đề "Chỉnh sửa III (người đoạt giải Nobel)".
Chỉnh sửa II: đã có một chút hiểu lầm và tôi đã chỉnh sửa để cố gắng làm rõ cách tôi diễn giải mục đích sử dụng dữ liệu. Tôi đã thay thế hai hình ảnh và thêm một phần "Bạn có muốn khoai tây chiên với nó không?"
Đồ họa tiết lộ dữ liệu.
Edward Tufte:
Sự lộn xộn và nhầm lẫn là thất bại của thiết kế không phải là thuộc tính của thông tin. Sự lộn xộn gọi cho một giải pháp thiết kế, không giảm nội dung. Rất thường xuyên, chi tiết càng mãnh liệt, sự rõ ràng và hiểu biết càng lớn, bởi vì ý nghĩa và lý luận không ngừng TIẾP TỤC. Ít hơn là một lỗ khoan.
Tại sao chúng ta hình dung dữ liệu?
- Công cụ để suy nghĩ
- Để hiển thị kết quả của việc nhìn thấy dữ dội
- Để hiểu một vấn đề, đưa ra quyết định
- Hiển thị so sánh, hiển thị quan hệ nhân quả
- Cung cấp lý do để tin tưởng
Làm sao?
- hiển thị dữ liệu
- Khiến người xem suy nghĩ về chất hơn là về phương pháp, thiết kế đồ họa, công nghệ sản xuất đồ họa hay cái gì khác
- tránh làm sai lệch những gì dữ liệu phải nói
- trình bày nhiều con số trong một không gian nhỏ
- làm cho tập hợp dữ liệu lớn mạch lạc
- khuyến khích mắt để so sánh các phần dữ liệu khác nhau
- tiết lộ dữ liệu ở nhiều cấp độ chi tiết, từ tổng quan rộng đến cấu trúc tốt.
- phục vụ một mục đích hợp lý rõ ràng: mô tả, thăm dò, lập bảng hoặc trang trí.
- được tích hợp chặt chẽ với các mô tả thống kê và bằng lời nói của một tập dữ liệu.
Một vài định nghĩa:
Dữ liệu:
thường được coi là "công cụ được sắp xếp trong cơ sở dữ liệu". Tất nhiên đây có thể là số, hình ảnh, âm thanh, video, vv Dữ liệu là những gì có thể thu thập được, thường là định lượng. Ở dạng raxi của nó rất khó tiêu hóa; chỉ là bức tường của chữ số. Bạn biết; Matrix . Nói chung, chúng tôi không có cơ sở dữ liệu khổng lồ bao gồm các số không, cho tất cả những thứ chúng tôi không có, ngay cả khi đôi khi những thứ chúng tôi không có là những thứ có nhiều thông tin nhất . Vì vậy, để xem những gì chúng tôi không có, chúng ta cần phải hình dung những gì chúng tôi làm có.
Thông tin:
là những gì bạn có thể trích xuất từ dữ liệu . Bằng cách hiển thị dữ liệu bằng cách nào đó, chúng ta có thể lượm lặt thông tin . Một trong những ví dụ tôi thường sử dụng là nếu tôi đưa cho bạn một danh sách các quốc gia trên thế giới và nói với bạn rằng hai người bị mất tích, rất có khả năng bạn sẽ tìm thấy họ dựa trên danh sách đó. Tuy nhiên, nếu tôi hiển thị điều này bằng cách tô màu tất cả các quốc gia tôi có trên bản đồ, bạn sẽ thấy ngay tôi đã bỏ qua Cộng hòa Trung Phi và New Caledonia. Đây là "giảm tiếng ồn" và kể một câu chuyện theo cách hiệu quả nhất có thể.
Infographics và trực quan hóa dữ liệu:
Tôi ngần ngại gọi infographics ví dụ của bạn. Tôi biết điều này thường được xem là từ đồng nghĩa với trực quan hóa dữ liệu, thiết kế thông tin hoặc kiến trúc thông tin, nhưng tôi không đồng ý. Infographics - với tôi - là một loạt các biểu đồ, sơ đồ và hình minh họa có thể chứa một loạt các tuyên bố sai lệch về cách đọc dữ liệu. Nó ít khách quan hơn, dễ bỏ qua dữ liệu không nằm trong "lợi ích" của người tạo: bạn được hướng dẫn đến một kết luận mà ai đó đã xác định trước. Chúng có giá trị giải trí và chúng thường được sử dụng quá nhiều các hình ảnh minh họa lấy đi một số trọng tâm từ dữ liệu. Điều này là tốt nhưng tôi nghĩ chúng ta nên phân biệt một chút.
Ví dụ
Dữ liệu lớn:
Hãy nhớ rằng dữ liệu lớn không giống như dữ liệu phức tạp. Rất nhiều dữ liệu có thể giống nhau, chẳng hạn như bản đồ LinkedIn này: dữ liệu cốt lõi là như nhau, nhưng có các bộ lọc (bằng cách gắn thẻ). Có hai biến: địa lý và một số loại thẻ xác định con người vào ngành nghề / sở thích / quan hệ. Lượng dữ liệu điên rồ; Nhưng chỉ có hai biến.
Đa biến:
Dưới đây là một ví dụ về trực quan hóa đa biến của dữ liệu. Đây là biểu đồ năm 1869 của Charles Minard cho thấy số lượng đàn ông trong quân đội chiến dịch Nga năm 1812 của Napoleon, các phong trào của họ, cũng như nhiệt độ họ gặp phải trên đường trở về.
Phiên bản lớn ở đây.
Phải mất một ít thời gian để bẻ khóa mã, nhưng khi bạn làm nó thật lộng lẫy. Các biến được bảo hiểm là:
- quy mô của quân đội (số người sống / chết)
- vị trí địa lý
- hướng (đông - tây)
- nhiệt độ
- thời gian (ngày)
- nhân quả (chết trong trận chiến và cảm lạnh)
Đó là một lượng thông tin đáng kinh ngạc trong một bản đồ hai màu đơn giản. Phần địa lý được cách điệu để nhường chỗ cho các biến khác, nhưng chúng tôi không gặp vấn đề gì khi lấy nó.
Đây là một khó khăn hơn. Điều này sẽ dễ đọc hơn rất nhiều nếu bạn đã quen thuộc với các hình ảnh tiến hóa cơ bản, các bản sao, phylogenics và các nguyên tắc của địa sinh học. Hãy nhớ rằng nó được tạo ra cho những người quen thuộc với điều này, vì vậy nó là một chuyên gia, biểu đồ khoa học. Đây là những gì nó cho thấy: Một hình ảnh phylogeographic của dòng dõi ếch độc từ Nam Mỹ. Các bản đồ bên trái hiển thị các khu vực địa sinh học chính khi chúng thay đổi theo thời gian và hình ảnh bên phải cho thấy các dòng ếch trong bối cảnh nguồn gốc địa sinh học của chúng. (Tác giả Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R và cộng sự [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], qua Wikimedia Commons). Khi bạn "bẻ khóa", nó rất thông tin, đáng kinh ngạc.
Bội số nhỏ, biểu đồ thu nhỏ:
Tôi không thể nhấn mạnh điều này đủ: không bao giờ đánh giá thấp giá trị của việc lặp lại thông tin, hoặc chia nó thành các hình ảnh trực quan giống hệt nhau. Miễn là hợp lý dễ dàng để so sánh một biểu đồ với một biểu đồ khác, điều này là hoàn toàn tốt. Chúng tôi là máy tìm mẫu. Điều này thường được gọi là bội số nhỏ. Chúng tôi có một vài vấn đề khi phân tích những hình ảnh này khá nhanh chóng và việc nhồi nhét mọi thứ vào một biểu đồ lớn thường là vô nghĩa khi mười cái nhỏ sẽ hoạt động tốt hơn nữa:
Một số khác:
Và một trong đó sử dụng đồ họa khác nhau nhưng lặp đi lặp lại:
Sparklines là một thuật ngữ được đặt ra bởi Edward Tufte, và cũng được phát triển thành một
thư viện javascript đầy đủ chức năng, có thể tùy chỉnh đầy đủ. Về cơ bản, chúng là các biểu đồ nhỏ có thể được chèn vào văn bản, như một phần của văn bản chứ không phải là một đối tượng "bên ngoài". Đây là giao diện mặc định:
Chỉnh sửa III (người đoạt giải Nobel)
Tôi chỉ cần thêm trực quan hóa dữ liệu này mà tôi tìm thấy, nó đơn giản là quá tốt: nó cho thấy những người được giải thưởng Nobel. Trường đại học nào, khoa gì, môn học, năm, tuổi, quê hương, thời tiết nó được chia sẻ, bằng cấp. Bằng chứng đẹp thực sự. Đây là tất cả dữ liệu định lượng. Thêm ở đây.
Dữ liệu của bạn
Tất cả các câu hỏi @Javi đặt ra là vô cùng quan trọng.
Những gì bạn đang cố gắng làm là tạo ra một công cụ trực quan để suy nghĩ. Để làm như vậy, bạn phải trích xuất chất lượng tín hiệu tốt nhất đến tỷ lệ nhiễu. Những gì bạn đang đấu tranh là làm thế nào để tương quan dữ liệu có các biến khác nhau, thành thông tin . Đây là một câu hỏi: những gì cần phải gần đúng và những gì cần phải chính xác? Mục tiêu là gì?
Tôi sẽ giả định rằng bạn muốn hiển thị dữ liệu mà không có quá nhiều sai lệch: bạn muốn người đọc tự tìm mối tương quan, nếu có bất kỳ mối tương quan nào. Mục đích của bạn không phải là nói với mọi người rằng bánh mì kẹp thịt có hại cho họ hay phụ nữ ăn ít bánh mì kẹp thịt hơn đàn ông, mà là để họ "nhìn" nó, nếu đó là những gì dữ liệu chứa (hãy tưởng tượng nếu ba người đó là một gia đình. xoay quan điểm của chúng tôi về toàn bộ đồ ăn burger-tad một chút).
Tập dữ liệu của bạn rất nhỏ, bạn chỉ cần đặt tất cả vào một bảng và nó sẽ ổn thôi. Nhưng tất nhiên đây là về ý tưởng chung:
Một chi tiết nhỏ: thời gian (tuổi) có xu hướng là một cái gì đó chúng ta thấy là ngang từ trái sang phải (dòng thời gian). Trọng lượng một cái gì đó lên xuống, vì vậy chuyển đổi x - y của bạn sẽ là một ý tưởng tốt.
1. các thực thể duy nhất, cố định là gì?
2. các biến (eh ..) là gì?
- Trọng lượng (kg)
- Lứa tuổi
- Số lượng bánh mì kẹp thịt (số nguyên)
- Loại bánh mì kẹp thịt (số nguyên)
Lưu ý: dữ liệu của bạn bao gồm toàn bộ các đơn vị. Có thể đếm được, định lượng từng cái trên một thang đo tinh thần riêng biệt. Kilo, tuổi, cân nặng và số lượng. Và trong cơ sở dữ liệu, tên của họ là chìa khóa. Khi bạn bắt đầu thực hiện các hình ảnh không gian thời gian, nó trở thành một vấn đề đau đầu thực sự. Hãy tưởng tượng rằng bạn nên thêm nơi sinh, nhà hiện tại, vv
Hai thứ duy nhất ở đây có mối tương quan là số lượng burger và wether hay không nó là một kết hợp. Tất cả các biến khác là độc lập và chỉ có một biến cố định (tên). Tại một số điểm, với các bộ dữ liệu lớn, thậm chí các tên trở nên không thú vị và được thay thế bởi nhân khẩu học, tuổi tác, giới tính hoặc tương tự.
Với tập dữ liệu nhỏ đó, bạn có thể lấy tất cả trong một biểu đồ, ví dụ như thế này:
Hoặc bạn có thể thay đổi nội dung trục và tên bong bóng:
Lưu ý cá nhân: Tôi nghĩ rằng điều này tốt hơn cả hai, bởi vì x và y chứa các thuộc tính "vật lý" của một con người. Các biến trong bong bóng ở đây là số lượng bánh mì kẹp thịt.
Bạn cũng có thể thêm biểu đồ hình tròn ngoài biểu đồ hoặc thậm chí chỉ có biểu đồ hình tròn. Cá nhân tôi sẽ có cả hai, như đã đề cập về bội số nhỏ:
Bạn có muốn chiên với đó không?
Giả định của tôi là chúng tôi cũng muốn biết tỷ lệ bánh burger trong bữa ăn. Mỗi bữa ăn có một burger. Không phải tất cả các bữa ăn là kết hợp.
- chúng ta chỉ muốn biết nếu một người đôi khi ăn kết hợp?
- hoặc chúng ta muốn biết có bao nhiêu bữa ăn burger cũng là kết hợp?
Nếu 1., một boolean được áp dụng cho tên / key / id sẽ làm.
Jane đôi khi ăn hỗn hợp? Đúng sai.
Nếu 2., chúng ta có thể áp dụng boolean cho mỗi bữa ăn:
1 phô mai, phô mai = đúng
1 phô mai, phô mai = đúng
1 phô mai, kết hợp = sai
1 phô mai, kết hợp = sai
1 phô mai, kết hợp = sai
1 phô mai, kết hợp = sai
1 phô mai, kết hợp = sai
1 bánh mì kẹp thịt, hỗn hợp = đúng
1 bánh mì kẹp thịt, hỗn hợp = đúng
1 bánh mì kẹp thịt, hỗn hợp = sai
Điều đó rất tẻ nhạt, vì vậy chúng tôi có thể chia nó thành:
Jane ăn 10 cái burger. Trong số này, ba cái là combo (Bạn có muốn ăn khoai tây chiên không?).
Một trong những món ăn kết hợp là thực đơn bánh mì kẹp thịt.
Hai trong số các món ăn kết hợp là thực đơn phô mai.
Phần còn lại là bánh mì kẹp thịt duy nhất. 5 phô mai, hai thịt bò.
Piechart này là một nỗ lực để hình dung điều đó. Tôi có trong phiên bản này giữ các lát bánh để làm cho nó rõ ràng hơn. Vấn đề ở đây là sẽ không có bước nhảy vọt nào khi bắt đầu áp dụng các bộ dữ liệu lớn và%:
Nhưng tôi nghĩ cách tốt nhất là suy nghĩ lại.
Một cách khác để nhìn vào nó, là làm nó thực sự rất đơn giản. Ở đây dễ dàng hơn để xem nhóm tuổi nào, nhóm cân nặng nào và tất cả dữ liệu bạn không "có" có thể cho chúng tôi biết. Dữ liệu bạn có không liên quan đến không gian, nó chỉ là đơn vị (kg, năm, số + khóa / id / tên):
(Chỉnh sửa: Trứng trên mặt: Tôi đã thay thế những hình ảnh này bằng những hình ảnh chính xác hơn, như "tất cả các bữa ăn đều là bánh mì kẹp thịt, không phải tất cả các bữa ăn đều là combo")
Điều này sẽ khá dễ dàng để mở rộng với nhiều người hơn:
Hoặc, thậm chí tốt hơn, nếu bạn so sánh các nhóm tuổi 10, 20 và 30 tuổi, bạn có thể thực hiện một cách khá đơn giản để đọc trực quan thống kê:
.. Và chỉ cần rõ ràng nhất có thể; đây là một ví dụ về cách nghĩ này Biểu đồ này cho thấy những người sống sót của Titanic, tỷ lệ thủy thủ đoàn, giai cấp, đàn ông, phụ nữ.
Sẽ có vô số giải pháp khác, đây chỉ là một vài suy nghĩ.
Tôi có thể tiếp tục, nhưng bây giờ tôi đã kiệt sức và có lẽ mọi người khác.
Công cụ để chơi với:
gephi
Gapminder Xem bài thuyết trình TED phi thường này
của Hans Rosling - yêu anh chàng đó
Bảng xếp hạng Google
ai đó
Raphaël
Triển lãm MIT (trước đây gọi là Similie)
d3
Cao thủ
Đọc thêm:
Onori; Bảo vệ khó khăn
Edward Tufte: Bằng chứng đẹp
Edward Tufte: Hình dung thông tin
Edward Tufte: Hiển thị trực quan thông tin định lượng
Giải thích bằng hình ảnh: Hình ảnh và Số lượng, Bằng chứng và Tường thuật
Nam, Alan., 2007 Minh họa một quan điểm lý thuyết và bối cảnh Lausanne, Thụy Sĩ; New York, NY: Học viện AVA
Isles, C. & Roberts, R., 1997. Trong ánh sáng khả kiến, nhiếp ảnh và phân loại trong nghệ thuật, khoa học và hàng ngày, Bảo tàng nghệ thuật hiện đại Oxford.
Card, SK, Mackinlay, J. & Shneerman, B. eds., 1999. Bài đọc trong trực quan hóa thông tin: Sử dụng tầm nhìn để suy nghĩ lần thứ nhất, Morgan Kaufmann.
Grafton, A. & Rosenberg, D., 2010. Bản đồ thời gian: Lịch sử của dòng thời gian, Nhà xuất bản kiến trúc Princeton.
Lima, M., 2011. Độ phức tạp thị giác: Các mô hình bản đồ thông tin, Báo chí kiến trúc Princeton.
Bounford, T., 2000. Sơ đồ số: Cách thiết kế và trình bày thông tin thống kê có hiệu quả 0 ed., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Trực quan đẹp: Nhìn vào dữ liệu qua con mắt của các chuyên gia lần thứ nhất, O'Reilly Media.
Gleick, J., 2011. Thông tin: Lịch sử, Lý thuyết, Lũ lụt, Pantheon