Những thực hành tốt nhất tôi nên làm theo khi chuẩn bị lô đất?


40

Tôi thường đưa ra lựa chọn bình dị của riêng mình khi chuẩn bị lô. Tuy nhiên, tôi tự hỏi nếu có bất kỳ thực hành tốt nhất để tạo ra các lô.

Lưu ý: Nhận xét của Rob cho câu trả lời cho câu hỏi này rất phù hợp ở đây.

Câu trả lời:


23

Các nguyên tắc Tufte là thực hành rất tốt khi chuẩn bị lô. Xem thêm cuốn sách Bằng chứng đẹp của anh ấy

Các nguyên tắc bao gồm:

  • Giữ tỷ lệ mực dữ liệu cao
  • Xóa biểu đồ rác
  • Cung cấp cho phần tử đồ họa nhiều chức năng
  • Hãy ghi nhớ mật độ dữ liệu

Thuật ngữ để tìm kiếm là Trực quan thông tin


4
Hiển thị trực quan thông tin định lượng của Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) tốt hơn IMO bằng chứng đẹp. Tất cả bốn cuốn sách của anh ấy đều tốt, và nếu bạn có cơ hội tham dự một trong những khóa học của anh ấy, hãy làm điều đó.
Stephen Turner

5
Tôi đồng ý với hầu hết những gì Tufte nói, nhưng tôi phải nói rằng, dữ liệu thấp của anh ta : hộp mực chỉ là những kẻ ngốc đơn thuần. Tôi nghĩ rằng họ mất tôi 3-4 lần để tìm ra so với các hộp tiêu chuẩn. Mặc định R tốt hơn nhiều (mặc dù các dòng ở cuối đuôi là không cần thiết). Các ô vuông truyền thống có thêm lợi thế là chúng có thể biểu thị kích thước mẫu (với chiều rộng) và độ lệch chuẩn (với các rãnh).
ness101

2
+1 @ naught101 một vài người khác chia sẻ ý kiến này qua tại SO: stackoverflow.com/questions/6973394/...
Ben

15

Chúng tôi có thể ở đây cả ngày biểu thị các thực tiễn tốt nhất, nhưng bạn nên bắt đầu bằng cách đọc Tufte. Đề nghị chính của tôi:

Giữ cho nó đơn giản.

Thông thường mọi người cố gắng tải lên biểu đồ của họ với thông tin. Nhưng bạn thực sự chỉ nên có một ý tưởng chính mà bạn đang cố gắng truyền đạt và nếu ai đó không nhận được tin nhắn của bạn gần như ngay lập tức, thì bạn nên suy nghĩ lại về cách bạn đã trình bày nó. Vì vậy, đừng bắt đầu làm việc trên biểu đồ của bạn cho đến khi thông điệp rõ ràng. Dao cạo của Occam cũng áp dụng ở đây.


1
Tôi đồng ý với phần lớn điểm này, nhưng tôi nghĩ "Giữ cho nó đơn giản." có thể không rõ ràng. Điểm chính của bạn là bạn nên biết những gì bạn muốn biểu đồ truyền đạt. "Giữ cho nó đơn giản." đưa ra một số ý tưởng khác, như "Tỷ lệ dữ liệu: mực phải cao.", mà Tufte khuyến khích và "Trình bày không quá ba biến.", điều mà Tufte không khuyến khích.
Thomas Levine

Rõ ràng lời khuyên này là vô cùng tốt hơn so với ngược lại. Nhưng có những tình huống trong đó một biểu đồ nhất thiết phải phức tạp và đòi hỏi nghiên cứu chi tiết, cẩn thận, chu đáo. Nhưng sự phức tạp nên đơn giản nhất có thể. Ví dụ, 25 ô trong ma trận 5 x 5 có thể cần nghiên cứu kéo dài, nhưng ý tưởng rằng mỗi ô chỉ hiển thị một số dữ liệu tương đối dễ nắm bắt.
Nick Cox

12

Một nguyên tắc nhỏ mà tôi không phải lúc nào cũng tuân theo nhưng đôi khi rất hữu ích là phải tính đến việc có khả năng cốt truyện của bạn sẽ đến một lúc nào đó trong tương lai.

  • gửi qua fax,
  • bản sao và / hoặc
  • sao chép màu đen trắng.

Bạn cần cố gắng và làm cho âm mưu của mình đủ rõ ràng rằng ngay cả khi chúng được sao chép không chính xác trong tương lai, thông tin mà cốt truyện đang cố gắng truyền tải vẫn có thể đọc được.


14
Tôi nghĩ bạn có nghĩa là được gửi bằng fax tại một số điểm trong quá khứ ;)
hadley

+1 cho điều này. Âm mưu tinh dịch của bạn, trái tim của bài báo của bạn, không nên hoàn toàn không thể hiểu được vì tôi đã in nó ra.
Fomite

câu trả lời này giải quyết một vấn đề tương tự.
ness101

8

Ngoài việc truyền tải một thông điệp rõ ràng, tôi luôn cố gắng ghi nhớ âm mưu:

  • cỡ chữ cho nhãn và truyền thuyết phải đủ lớn, tốt nhất là cùng cỡ chữ và phông chữ được sử dụng trong ấn phẩm cuối cùng.
  • độ rộng đường truyền phải đủ lớn (các dòng 1 pt có xu hướng biến mất nếu các ô chỉ bị thu hẹp một chút). Tôi cố gắng đi đến băng thông từ 3 đến 5 pt.
  • nếu vẽ nhiều bộ dữ liệu / đường cong bằng màu sắc, hãy đảm bảo rằng chúng có thể được hiểu nếu được in bằng màu đen và trắng, ví dụ: bằng cách sử dụng các biểu tượng hoặc kiểu chữ khác nhau ngoài màu sắc.
  • luôn luôn sử dụng định dạng lossless (hoặc gần với lossless), ví dụ định dạng vectơ như pdf, ps hoặc svg hoặc png hoặc gif độ phân giải cao (jpeg hoàn toàn không hoạt động và không bao giờ được thiết kế cho nghệ thuật đường nét).
  • chuẩn bị đồ họa trong tỷ lệ khung hình cuối cùng sẽ được sử dụng trong ấn phẩm. Thay đổi tỷ lệ khung hình sau này có thể cho hình dạng phông chữ hoặc biểu tượng khó chịu.
  • luôn loại bỏ sự lộn xộn vô dụng khỏi chương trình âm mưu như thông tin biểu đồ không sử dụng, đường xu hướng (hầu như không hữu ích) hoặc tiêu đề mặc định.

Tôi đã cấu hình phần mềm âm mưu của mình (matplotlib, ROOT hoặc root2matplotlib) để thực hiện hầu hết quyền này theo mặc định. Trước khi tôi đang sử dụng gnuplotcần được chăm sóc thêm ở đây.


8

Trong lĩnh vực vật lý có một quy tắc rằng toàn bộ bài báo / báo cáo chỉ có thể hiểu được từ việc xem nhanh các ô. Vì vậy, tôi chủ yếu sẽ khuyên rằng họ nên tự giải thích.
Điều này cũng ngụ ý rằng bạn phải luôn kiểm tra xem khán giả của bạn có quen thuộc với một loại cốt truyện nào đó không - tôi đã từng mắc một sai lầm lớn khi cho rằng mọi nhà khoa học đều biết boxplots là gì, và sau đó lãng phí một giờ để giải thích nó.


Thông cảm về trải nghiệm cốt truyện hộp, nhưng điều này ngụ ý là (a) sử dụng một biến thể tương đối đơn giản (ví dụ: hiển thị trung vị, tứ phân vị, 5% và 95% điểm và tất cả các điểm dữ liệu ngoài) thay vì hiển thị bất cứ điều gì dựa trên quy ước tập trung vào 1,5 IQR; (b) thêm một quy ước làm chú thích rõ ràng.
Nick Cox

6

Dưới đây là hướng dẫn của tôi, dựa trên các lỗi phổ biến nhất mà tôi thấy (ngoài tất cả các điểm tốt khác được đề cập)

  • Sử dụng biểu đồ phân tán, không phải sơ đồ đường, nếu thứ tự phần tử không liên quan.
  • Khi chuẩn bị các ô có nghĩa là so sánh, sử dụng cùng một hệ số tỷ lệ cho tất cả chúng.
  • Thậm chí tốt hơn - tìm cách kết hợp dữ liệu trong một biểu đồ duy nhất (ví dụ: boxplots tốt hơn một số biểu đồ để so sánh một số lượng lớn phân phối).
  • Đừng quên chỉ định đơn vị
  • Chỉ sử dụng một chú giải nếu bạn phải - nói chung rõ ràng hơn để gắn nhãn đường cong trực tiếp.
  • Nếu bạn phải sử dụng một chú giải, hãy di chuyển nó vào trong cốt truyện, trong một khu vực trống.
  • Đối với biểu đồ đường, nhắm đến tỷ lệ khung hình mang lại các đường xấp xỉ 45o với trang .

"boxplots là một tốt hơn so với một vài biểu đồ để so sánh một số lượng lớn các bản phân phối" - điều này chỉ đúng nếu dữ liệu của bạn là unimodal, và không có nhọn hoặc một số tính năng khác mà không thể được chụp bởi boxplots ..
naught101

6

Hãy xem thư viện đồ họa R, ggplot2. Chi tiết có tại trang web http://had.co.nz/ggplot2/ Gói này tạo ra các lô mặc định rất tốt, tuân theo các nguyên tắc Tufte, hướng dẫn của Cleveland và gói màu của Ihaka.


6

Nếu vẽ màu, hãy xem xét rằng người mù màu có thể gặp khó khăn khi phân biệt các yếu tố chỉ bằng màu sắc. Vì thế:

  • Sử dụng các kiểu đường để phân biệt các dòng.
  • Sử dụng trọng lượng thêm trong các phần tử, tạo băng thông tối thiểu 2 pt, v.v.
  • Sử dụng các dấu hiệu khác nhau cũng như màu sắc để phân biệt các điểm.
  • Sử dụng nhãn và chú thích, đề cập đến vị trí và phong cách cũng.
  • Khi đề cập đến các yếu tố cốt truyện trong văn bản, hãy mô tả chúng theo màu sắc, vị trí tương đối và kiểu dáng: "đường cong màu đỏ, trên, dấu gạch ngang"
  • Sử dụng bảng màu thân thiện với màu sắc. Xem http://www.vischeck.com/vischeck/ ,, http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Tôi có một triển khai python đơn giản của bảng màu trong tài liệu tham khảo cuối cùng tại code.google.com, hãy tìm python-cudtools

Cũng xem xét thực tế rằng ai đó có thể phải in nó ra trên một máy in màu xám. Tôi đã làm điều này trước đây - Tôi đã sử dụng các màu mặc định của ggplot2 (trông tuyệt vời trên màn hình) cho một bài tập, sau đó tôi in ra bằng màu đen và trắng, và một nửa các màu không thể phân biệt được với các màu khác! * đỏ mặt *
naught 101

4

Đây là những gợi ý tuyệt vời. Chúng tôi đã tập hợp rất nhiều tài liệu tại http://biostat.mc.vanderbilt.edu/StatGraphCourse . Một nhóm các nhà thống kê trong ngành công nghiệp dược phẩm, học viện và FDA cũng đang tạo ra một nguồn tài nguyên sẽ rất hữu ích cho các thử nghiệm lâm sàng và nghiên cứu liên quan. Nhiều tài liệu mới sẽ được tiết lộ trong một tháng nhưng đã có rất nhiều tài liệu - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Cuốn sách đồ họa yêu thích cá nhân của tôi là Elements of Graphing Data của William Cleveland.

Về phần mềm, theo tôi, thật khó để đánh bại các gói ggplot2 và mạng tinh thể của R. Stata cũng hỗ trợ một số đồ họa tuyệt vời.


3

Nó cũng phụ thuộc vào nơi bạn sẽ không xuất bản các lô của bạn. Bạn sẽ tiết kiệm cho mình rất nhiều rắc rối bằng cách tham khảo hướng dẫn cho các tác giả trước khi thực hiện bất kỳ âm mưu nào cho một tạp chí.

Đồng thời lưu các ô theo định dạng dễ sửa đổi hoặc lưu mã bạn đã sử dụng để tạo chúng. Rất có thể là bạn cần phải sửa chữa.



2

Các câu trả lời khác quá công thức để có thể thuyết phục, vì vậy hãy để tôi đưa ra một câu trả lời tổng quát hơn. Tôi đã vật lộn với câu hỏi này trong một thời gian. Tôi cung cấp quá trình này:

  1. Biết tin nhắn của bạn
  2. Biết khán giả của bạn
  3. Biết những hạn chế của bạn
  4. Điều chỉnh thông điệp của bạn đến khán giả của bạn đưa ra các ràng buộc của bạn

Tôi hoài nghi về các khiếu nại về chăn như "giữ cho nó đơn giản" - điều đó có nghĩa là gì? Vâng, nó phụ thuộc vào khán giả. Một số khán giả sẽ ăn theo phong cách Tufte. Nhưng một số khán giả đánh giá cao một biểu đồ rác bây giờ và sau đó. Một số người chán bởi scatterplots. Một số người thích hình nền đầy màu sắc. Có quá sai lầm khi thu hút họ một chút ngay cả khi bạn thỏa hiệp với sự thuần khiết "thẩm mỹ"? Đó là tùy thuộc vào bạn để quyết định.

Phản ứng của khán giả của bạn sẽ là một phần phản hồi quan trọng, nhưng không phải là duy nhất. Nếu bạn tìm cách đo lường sự hiểu biết của họ trướcsau khi trình bày, thì bạn sẽ bắt đầu hiểu được tác động mà bạn đã tạo ra.

Câu trả lời "đúng" sẽ phụ thuộc vào các loại câu hỏi sau:

  • Bạn sẽ sử dụng phương tiện truyền thông nào?

  • Bạn đang tạo các ô tĩnh hoặc tương tác?

  • Bạn đang cố gắng kể một câu chuyện được xác định trước (giải thích) hoặc khuyến khích thử nghiệm (khám phá)?

  • Ở mức độ nào bạn muốn khán giả tự rút ra kết luận?

  • Ở mức độ nào bạn muốn khán giả theo dõi và bị thuyết phục bởi câu chuyện của bạn?

  • Ở mức độ nào bạn muốn khán giả thách thức những phát hiện của bạn?

Tóm lại, thiết kế tài liệu của bạn có chủ ý đưa ra thông điệp, đối tượng và các ràng buộc của bạn.


"Tham gia", hay làm sao lãng? Màu sắc có thể ổn, nhưng cuối cùng bạn vẫn ở đây về dữ liệu và tính thẩm mỹ sẽ phục vụ dữ liệu chứ không phải theo cách khác.
ness101

2

Một điều mà tôi dường như nhớ đến Tufte đã đề cập, đó không phải là trong các câu trả lời khác là ánh xạ - đó là tạo vị trí, hướng, kích thước, v.v. trên biểu đồ của bạn thể hiện thực tế . Những gì đang có trên biểu đồ nên có trong thế giới thực. Cái gì là lớn nên lớn (hãy nhớ rằng các khu vực nên đại diện cho các khu vực và khối lượng khối lượng. Đừng bao giờ cố gắng biểu thị một giá trị vô hướng theo một khu vực, điều đó rất mơ hồ!). Điều này cũng áp dụng cho màu sắc, hình dạng, vv, nếu chúng có liên quan.

Một ví dụ thú vị là biểu đồ "loạt váy" ở đây: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Mặc dù về mặt kỹ thuật là chính xác và chiều dài váy "cao hơn" chiếm vị trí cao hơn trên biểu đồ, nhưng thực sự khá khó hiểu, bởi vì chiều dài váy bắt đầu từ trên xuống và đi xuống (không giống như con người hoặc cây cối, nơi chúng ta đo chiều cao từ đất). Vì vậy, chiều dài váy tăng thực sự đại diện cho một giá trị thấp hơn :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

nhập mô tả hình ảnh ở đây

Vẫn như mọi khi, khó khăn. Ví dụ, chúng ta thường xem xét thời gian để tiến về phía trước và ở phía tây, ít nhất, chúng ta đọc từ trái sang phải, vì vậy các biểu đồ chuỗi thời gian của chúng ta cũng thường chảy từ trái sang phải khi thời gian tăng. Vì vậy, điều gì xảy ra nếu bạn muốn đại diện cho thứ gì đó được thể hiện tốt nhất về sau (ví dụ: các phép đo đông tây của một thứ gì đó), theo thời gian? Trong trường hợp đó, bạn phải thỏa hiệp và miêu tả thời gian di chuyển lên hoặc xuống (điều này phụ thuộc một lần nữa vào nhận thức văn hóa, tôi đoán) hoặc chọn ánh xạ biến bên của bạn lên / xuống trên biểu đồ của bạn.


1
Một ví dụ về sự đánh đổi thời gian / không gian có trong cuốn sách, Making Maps (thảo luận quan trọng và ví dụ được đưa ra ở đây .
Andy W

Đẹp (kinh khủng) ví dụ! Các bản đồ đưa ra một sự đánh đổi khác, khó khăn hơn: cố gắng thể hiện 2 chiều + thời gian trên một trang hai chiều (ví dụ: bản đồ trôi dạt lục địa). Khá khó khăn. Nhưng tôi đoán đó là những gì hoạt hình dành cho :)
naught101

Ví dụ nói của bạn cho phép đề cập đến hai điểm bổ sung thường phát sinh. 1. Với trục thời gian, tiêu đề hoặc nhãn như "TIme" thường không cần thiết. 2. Các tiêu đề hoặc nhãn như "váy" luôn có thể được cải thiện với một lời giải thích ngắn gọn nhưng đầy thông tin, bao gồm các đơn vị đo lường khi thích hợp.
Nick Cox

1

Nó phụ thuộc vào cách mà các lô sẽ được thảo luận.

Chẳng hạn, nếu tôi đang gửi các âm mưu cho một cuộc họp nhóm sẽ được thực hiện với những người gọi từ các địa điểm khác nhau, tôi thích đặt chúng lại với nhau trong Powerpoint chứ không phải là Excel, vì vậy việc lật lại dễ dàng hơn.

Đối với các cuộc gọi kỹ thuật trực tiếp, tôi sẽ đặt một cái gì đó trong excel để khách hàng có thể chuyển một âm mưu sang một bên và xem dữ liệu thô. Hoặc, tôi có thể nhập giá trị p vào các ô dọc theo hệ số hồi quy bên, ví dụ:

Hãy ghi nhớ: các lô rất rẻ, đặc biệt là cho một trình chiếu, hoặc để gửi email cho một nhóm. Tôi muốn tạo ra 10 ô rõ ràng mà chúng ta có thể lướt qua hơn 5 ô trong đó tôi cố gắng đặt các đoàn hệ riêng biệt (ví dụ: "nam và nữ") trên cùng một biểu đồ.


1

Tôi sẽ thêm rằng sự lựa chọn cốt truyện sẽ phản ánh loại kiểm tra thống kê được sử dụng để phân tích dữ liệu. Nói cách khác, bất kỳ đặc điểm nào của dữ liệu được sử dụng để phân tích đều phải được hiển thị một cách trực quan - vì vậy bạn sẽ hiển thị các phương tiện và lỗi tiêu chuẩn nếu bạn đã sử dụng kiểm tra t nhưng các ô vuông nếu bạn sử dụng thử nghiệm Mann-Whitney.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.