Một cuốn sách hay tài liệu tham khảo để trực quan hóa dữ liệu là gì?


7

Tôi đang tìm kiếm một số tài liệu tham khảo về việc tạo biểu đồ / dữ liệu trực quan hiệu quả.

Tôi đã tìm thấy một loạt sách chỉ ra cách tạo trực quan hóa dữ liệu bằng một số công cụ nhất định (như R / ggplot vs python / pandas) nhưng đó không thực sự là thứ tôi đang tìm kiếm. Tôi đang tìm một tài liệu tham khảo giải thích các loại biểu đồ khác nhau liên quan đến thống kê / toán học. Tôi muốn nhiều lý thuyết hơn là quá trình.

Tôi muốn biết các loại biểu đồ khác nhau và cách sử dụng chúng. Bất cứ điều gì giúp!

Câu trả lời:


11

Tôi nghĩ rằng công việc của William Cleveland sẽ gần hơn với những gì bạn muốn đó là Tufte. Cleveland đã viết hai cuốn sách:

  1. Trực quan hóa dữ liệu (1993)
  2. Các yếu tố của dữ liệu đồ thị (1985)

Cuốn sách đầu tiên, đặc biệt, có thể là những gì bạn muốn. Dưới đây là mô tả của nhà xuất bản:

Trực quan hóa dữ liệu là về các công cụ trực quan cung cấp cái nhìn sâu sắc về cấu trúc dữ liệu. Có các công cụ đồ họa như coplots, sơ đồ nhiều chấm và thuật toán đếm bằng nhau. Có các công cụ phù hợp như hoàng thổ và hình vuông phù hợp với các phương trình, đường cong không đối xứng và bề mặt không đối xứng với dữ liệu. Nhưng cuốn sách không chỉ là một bản tóm tắt các công cụ hữu ích. Nó truyền tải một chiến lược phân tích dữ liệu nhấn mạnh việc sử dụng trực quan để nghiên cứu kỹ cấu trúc dữ liệu và kiểm tra tính hợp lệ của các mô hình thống kê phù hợp với dữ liệu. Kết quả của các công cụ và chiến lược là một sự gia tăng lớn trong những gì bạn có thể học được từ dữ liệu của mình. Cuốn sách đã chứng minh điều này bằng cách tái lập nhiều bộ dữ liệu từ các tài liệu khoa học, cho thấy các hiệu ứng bị bỏ lỡ và các mô hình không phù hợp được trang bị cho dữ liệu.

Một cuốn sách thậm chí còn lý thuyết hơn là The Grammar of Graphics của Leland Wilkinson. Mô tả:

Cuốn sách này được viết cho các nhà thống kê, nhà khoa học máy tính, nhà địa lý, nhà nghiên cứu và những người khác quan tâm đến việc trực quan hóa dữ liệu. Nó trình bày một nền tảng duy nhất để sản xuất hầu hết mọi đồ họa định lượng được tìm thấy trong các tạp chí khoa học, báo, gói thống kê và hệ thống trực quan hóa dữ liệu. Mặc dù kết quả hữu hình của công việc này là một số thư viện phần mềm trực quan, cuốn sách này tập trung vào các cấu trúc sâu liên quan đến việc sản xuất đồ họa định lượng từ dữ liệu. Các quy tắc nền tảng cho việc sản xuất biểu đồ hình tròn, biểu đồ thanh, biểu đồ phân tán, sơ đồ chức năng, bản đồ, khảm, và biểu đồ radar? Những người ít quan tâm đến các nền tảng lý thuyết và toán học vẫn có thể hiểu được sự phong phú và cấu trúc của hệ thống bằng cách kiểm tra rất nhiều đồ họa màu sắc độc đáo và thường xuyên mà nó có thể tạo ra. Phiên bản thứ hai có kích thước gần gấp đôi so với bản gốc, với sáu chương mới và sửa đổi đáng kể. Phần lớn các tài liệu được thêm vào làm cho cuốn sách này phù hợp cho các khóa khảo sát về trực quan hóa và đồ họa thống kê.

Cuốn sách này rất lý thuyết.


2
Ấn bản thứ 2 của cuốn sách Element 1994. Tôi phản ánh mạnh mẽ sự chứng thực này của Cleveland. Tufte là tuyệt vời nhưng Cleveland nói trực tiếp hơn và nhiều chi tiết kỹ thuật cho bất cứ ai có đầu óc thống kê. Tôi sẽ thêm rằng những cuốn sách này thực sự không hẹn hò trong bất kỳ ý nghĩa cơ bản.
Nick Cox

2
Có một lý thuyết quá cong (hoặc dưới ghim) trong cuốn sách của Wilkinson, được khen ngợi tốt nhất bởi thực tế là Hadley Wickham đã xây dựng nó trong thiết kế của mình ggplot2trong R. Nhưng đó cũng là một cuốn sách tuyệt vời để bỏ qua và đọc lướt.
Nick Cox

6

Nhìn vào loạt sách được viết bởi Ed Tufte. Chúng được thảo luận bởi wikipedia trong bài viết https://en.wikipedia.org/wiki/Edward_Tufte .

  1. Hiển thị trực quan của thông tin định lượng. 1983; Ấn bản thứ hai 2001. Cheshire, CT: Báo chí đồ họa

  2. Hình dung thông tin. 1990. Cheshire, CT: Báo chí đồ họa

  3. Giải thích trực quan: Hình ảnh và số lượng, bằng chứng và báo chí đồ họa tự sự. 1997. Cheshire, CT: Báo chí đồ họa

  4. Bằng chứng đẹp. 2006. Cheshire, CT: Báo chí đồ họa


Tôi đã đưa ra một tài liệu tham khảo và câu trả lời của tôi không quá ngắn.
Michael R. Chernick

1
Chúng tôi hy vọng câu trả lời cho các câu hỏi "liệt kê" như câu hỏi này sẽ bao gồm, ở mức tối thiểu, một lý do hợp lý cho khuyến nghị. Câu trả lời không cung cấp lý do thường bị xóa hoặc chuyển đổi thành ý kiến.
whuber

1
@whuber Tôi đã đưa ra một câu trả lời rất thích hợp khi tham khảo ba cuốn sách được viết bởi Edward Tufte. Bạn có một đề nghị tốt hơn?
Michael R. Chernick

1
Đúng. Đầu tiên chỉ ra mỗi cuốn sách riêng biệt, theo tiêu đề. Cùng với những chỉ dẫn đó mô tả cách đề xuất cuốn sách đó trả lời cho câu hỏi. Tufte đã đưa ra lý thuyết hay lý thuyết nào? Từ quan điểm cụ thể nào? Tại sao nó đáng để tham khảo các văn bản này? Làm thế nào để họ khác nhau giữa họ? Vv, vv
whuber

2
Tôi đã thêm phần thứ hai trong số bốn (cho đến nay) các cuốn sách tự xuất bản của Tufte (lưu ý rằng đồ họa là một chủ đề phụ trong các cuốn sách trước đây của anh ấy). Tôi sẽ không cố gắng khen ngợi sự khen ngợi của Michael.
Nick Cox

5

Có nguy cơ bị đóng đinh, tôi sẽ khuyên Tufte, Wilkinson, Cleveland, v.v. và tất cả các tác phẩm kinh điển khác nếu bạn mới bắt đầu.

Lý do là mục tiêu sau đây được đặt ra bởi bạn (nhấn mạnh thêm):

Tôi đang tìm kiếm một số tài liệu tham khảo về việc tạo biểu đồ / dữ liệu trực quan hiệu quả.

Vì vậy, mặc dù bạn không rõ ràng muốn sách / hướng dẫn phụ thuộc ngôn ngữ, bạn muốn kiến ​​thức của mình được áp dụng thay vì một bài tập lý thuyết trừu tượng về cà phê. Bắt đầu với những gì tôi gọi là kinh điển cũng giống như đọc Shakespeare bởi vì bạn muốn ngôn ngữ của bạn trở nên hùng hồn hơn. Các cuộc thảo luận trong các cuốn sách là tuyệt vời để đặt nền tảng để hiểu trực quan hóa dữ liệu hiệu quả; nhưng xem xét những tiến bộ công nghệ cho đến ngày nay - những cuốn sách không giúp ích nhiều trong việc phát triển trí tuệ ứng dụng (Ngữ pháp đồ họa - Wilkinson là ngoại lệ nhỏ vì liên quan đến ggplot2nhưng trong trường hợp đó tôi sẽ khuyên đọc các tác phẩm của Hadley Wickham , tác giả gói thay thế).

Một số tài nguyên tốt mà bạn có thể xem là FlowingData (Nathan Yau), Perceptionual Edge (Stephen Few) và Storytelling with Data (Cole Knaflic) và các cuốn sách của các tác giả blog. Lý do như sau:

  1. Những tác phẩm này đã bao gồm các nghiên cứu từ kinh điển
  2. Ngôn ngữ ít học thuật và dễ hiểu hơn
  3. Các blog được cập nhật thường xuyên hoạt động như một tài liệu bổ sung cho các cuốn sách

Thật đáng tiếc Aaron Koblin đã không xuất bản bất kỳ cuốn sách nào về sự độc đáo của anh ấy về trực quan hóa dữ liệu lớn.

Tôi không giảm giá công việc của Tufte, Cleveland và Wilkinson hữu ích như thế nào, nhưng sau khi làm quen với một vài trong số họ và vẫn chỉ khá hơn một chút về các công cụ trực quan hóa dữ liệu hiện đại, "Show me the Numbers" của Stephen Few giống như một công tắc đèn sáng.


4

Nó phụ thuộc mạnh mẽ vào ngôn ngữ bạn thích. Vì tôi không sử dụng Python để trực quan hóa dữ liệu thường xuyên, tôi chỉ có thể giới thiệu cho bạn những cuốn sách liên quan đến trực quan hóa dữ liệu trong R. Sau khi viết bài này, tôi đọc lại câu hỏi của bạn và Nr. 1, Nr. 2 và có thể Nr. 4 có thể là lý thuyết nhất. Mặc dù Nr. 6 cũng giải thích cho bạn các khía cạnh lý thuyết, nó chuyên về trực quan hóa các kỹ thuật máy học không giám sát.

  1. Đồ họa R của Paul Murrell

Tác giả Paul Murrell có một phần quan trọng trong việc phát triển đồ họa của ngôn ngữ R. Ông đã phát triển khái niệm "Ngữ pháp đồ họa", đó là khái niệm nằm dưới thư viện ggplot2. Cuốn sách khá tiên tiến mặc dù bạn không cần nhiều sự biết trước về mặt lý thuyết và khá lý thuyết. Đó là cuốn sách tốt nhất cho những người thực sự muốn hiểu các khái niệm trực quan hóa dữ liệu trong R, nhưng tôi không khuyên dùng nó cho người mới bắt đầu.

  1. Các tiện ích HTML

Là phải cho trực quan hóa dữ liệu tương tác. Các thư viện JavaScript khác nhau được dịch sang và điều chỉnh thành R. Bạn có thể bao gồm hầu hết các Widget trong RShiny, Markdown (được hiển thị dưới dạng HTML) hoặc trong bảng điều khiển). Các widget HTML yêu thích của tôi là

  • Plotly (Một thư viện về trực quan hóa dữ liệu tương tác cũng có sẵn cho nhiều ngôn ngữ khác như Python và Matlab)
  • Tờ rơi (hình ảnh tương tác với Bản đồ)
  • dygraph (cung cấp nhiều loại để hiển thị chuỗi thời gian tương tác)
  • có thể truy cập được (được viết bởi Yuhui Xe từ RStudio, người cũng đã viết gói đan và gói sách. Phổ biến để hiển thị các bảng))

    1. Hướng dẫn tạo đồ họa đẹp trong R

Cuốn sách này khá thân thiện với người mới bắt đầu. Các ví dụ của nó chủ yếu được hiển thị trong ggplot2. Khi tôi bắt đầu học các kỹ thuật trực quan hóa dữ liệu nâng cao trong RI, chủ yếu sử dụng trang này và trang web ggplot2 chính thức.

  1. Trang web chính thức của ggplot2

Là điểm khởi đầu tốt nhất để học ggplot2, nhưng nó có thể xuất hiện quá nhiều nếu bạn không sẵn sàng đam mê và nếu bạn không có nhiều thời gian. ggplot2 là tuyệt vời, nhưng nó có thể có một đường cong học tập dốc, ví dụ bạn không thể viết "+" ở đầu dòng. Tất cả các khái niệm lý thuyết cũng được giải thích.

  1. Phòng trưng bày sáng bóng chính thức

Shiny là thư viện R được sử dụng nhiều nhất để xây dựng các ứng dụng với R. Nó có thể được thay thế bằng các công cụ BI như Tableau hoặc Qlickview. Shinyjs là một phần mở rộng tuyệt vời của sáng bóng kết hợp sáng bóng với javascript, nhưng bạn cũng có thể tự mình bao gồm HTML, CSS và JavaScript.

  1. Phân tích cụm trong R

Cuốn sách này đến từ cùng các tác giả với Hướng dẫn về đồ họa đẹp (nr.3) . Đây là một cuốn sách chuyên ngành để hình dung các kỹ thuật máy học không giám sát và đặc biệt là phân cụm.

7. Hướng dẫn dễ dàng

Trong trường hợp bạn chỉ bắt đầu hình dung và tôi áp đảo bạn một chút.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.