Tôi thường đưa ra lựa chọn bình dị của riêng mình khi chuẩn bị lô. Tuy nhiên, tôi tự hỏi nếu có bất kỳ thực hành tốt nhất để tạo ra các lô.
Lưu ý: Nhận xét của Rob cho câu trả lời cho câu hỏi này rất phù hợp ở đây.
Tôi thường đưa ra lựa chọn bình dị của riêng mình khi chuẩn bị lô. Tuy nhiên, tôi tự hỏi nếu có bất kỳ thực hành tốt nhất để tạo ra các lô.
Lưu ý: Nhận xét của Rob cho câu trả lời cho câu hỏi này rất phù hợp ở đây.
Câu trả lời:
Các nguyên tắc Tufte là thực hành rất tốt khi chuẩn bị lô. Xem thêm cuốn sách Bằng chứng đẹp của anh ấy
Các nguyên tắc bao gồm:
Thuật ngữ để tìm kiếm là Trực quan thông tin
SO
: stackoverflow.com/questions/6973394/...
Chúng tôi có thể ở đây cả ngày biểu thị các thực tiễn tốt nhất, nhưng bạn nên bắt đầu bằng cách đọc Tufte. Đề nghị chính của tôi:
Giữ cho nó đơn giản.
Thông thường mọi người cố gắng tải lên biểu đồ của họ với thông tin. Nhưng bạn thực sự chỉ nên có một ý tưởng chính mà bạn đang cố gắng truyền đạt và nếu ai đó không nhận được tin nhắn của bạn gần như ngay lập tức, thì bạn nên suy nghĩ lại về cách bạn đã trình bày nó. Vì vậy, đừng bắt đầu làm việc trên biểu đồ của bạn cho đến khi thông điệp rõ ràng. Dao cạo của Occam cũng áp dụng ở đây.
Một nguyên tắc nhỏ mà tôi không phải lúc nào cũng tuân theo nhưng đôi khi rất hữu ích là phải tính đến việc có khả năng cốt truyện của bạn sẽ đến một lúc nào đó trong tương lai.
Bạn cần cố gắng và làm cho âm mưu của mình đủ rõ ràng rằng ngay cả khi chúng được sao chép không chính xác trong tương lai, thông tin mà cốt truyện đang cố gắng truyền tải vẫn có thể đọc được.
Ngoài việc truyền tải một thông điệp rõ ràng, tôi luôn cố gắng ghi nhớ âm mưu:
Tôi đã cấu hình phần mềm âm mưu của mình (matplotlib, ROOT hoặc root2matplotlib) để thực hiện hầu hết quyền này theo mặc định. Trước khi tôi đang sử dụng gnuplot
cần được chăm sóc thêm ở đây.
Trong lĩnh vực vật lý có một quy tắc rằng toàn bộ bài báo / báo cáo chỉ có thể hiểu được từ việc xem nhanh các ô. Vì vậy, tôi chủ yếu sẽ khuyên rằng họ nên tự giải thích.
Điều này cũng ngụ ý rằng bạn phải luôn kiểm tra xem khán giả của bạn có quen thuộc với một loại cốt truyện nào đó không - tôi đã từng mắc một sai lầm lớn khi cho rằng mọi nhà khoa học đều biết boxplots là gì, và sau đó lãng phí một giờ để giải thích nó.
Dưới đây là hướng dẫn của tôi, dựa trên các lỗi phổ biến nhất mà tôi thấy (ngoài tất cả các điểm tốt khác được đề cập)
Hãy xem thư viện đồ họa R, ggplot2. Chi tiết có tại trang web http://had.co.nz/ggplot2/ Gói này tạo ra các lô mặc định rất tốt, tuân theo các nguyên tắc Tufte, hướng dẫn của Cleveland và gói màu của Ihaka.
Nếu vẽ màu, hãy xem xét rằng người mù màu có thể gặp khó khăn khi phân biệt các yếu tố chỉ bằng màu sắc. Vì thế:
Đây là những gợi ý tuyệt vời. Chúng tôi đã tập hợp rất nhiều tài liệu tại http://biostat.mc.vanderbilt.edu/StatGraphCourse . Một nhóm các nhà thống kê trong ngành công nghiệp dược phẩm, học viện và FDA cũng đang tạo ra một nguồn tài nguyên sẽ rất hữu ích cho các thử nghiệm lâm sàng và nghiên cứu liên quan. Nhiều tài liệu mới sẽ được tiết lộ trong một tháng nhưng đã có rất nhiều tài liệu - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Cuốn sách đồ họa yêu thích cá nhân của tôi là Elements of Graphing Data của William Cleveland.
Về phần mềm, theo tôi, thật khó để đánh bại các gói ggplot2 và mạng tinh thể của R. Stata cũng hỗ trợ một số đồ họa tuyệt vời.
Nó cũng phụ thuộc vào nơi bạn sẽ không xuất bản các lô của bạn. Bạn sẽ tiết kiệm cho mình rất nhiều rắc rối bằng cách tham khảo hướng dẫn cho các tác giả trước khi thực hiện bất kỳ âm mưu nào cho một tạp chí.
Đồng thời lưu các ô theo định dạng dễ sửa đổi hoặc lưu mã bạn đã sử dụng để tạo chúng. Rất có thể là bạn cần phải sửa chữa.
Không sử dụng lô thuốc nổ: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , âm mưu sử dụng violon hoặc tương tự (boxplots gia đình)
Các câu trả lời khác quá công thức để có thể thuyết phục, vì vậy hãy để tôi đưa ra một câu trả lời tổng quát hơn. Tôi đã vật lộn với câu hỏi này trong một thời gian. Tôi cung cấp quá trình này:
Tôi hoài nghi về các khiếu nại về chăn như "giữ cho nó đơn giản" - điều đó có nghĩa là gì? Vâng, nó phụ thuộc vào khán giả. Một số khán giả sẽ ăn theo phong cách Tufte. Nhưng một số khán giả đánh giá cao một biểu đồ rác bây giờ và sau đó. Một số người chán bởi scatterplots. Một số người thích hình nền đầy màu sắc. Có quá sai lầm khi thu hút họ một chút ngay cả khi bạn thỏa hiệp với sự thuần khiết "thẩm mỹ"? Đó là tùy thuộc vào bạn để quyết định.
Phản ứng của khán giả của bạn sẽ là một phần phản hồi quan trọng, nhưng không phải là duy nhất. Nếu bạn tìm cách đo lường sự hiểu biết của họ trước và sau khi trình bày, thì bạn sẽ bắt đầu hiểu được tác động mà bạn đã tạo ra.
Câu trả lời "đúng" sẽ phụ thuộc vào các loại câu hỏi sau:
Bạn sẽ sử dụng phương tiện truyền thông nào?
Bạn đang tạo các ô tĩnh hoặc tương tác?
Bạn đang cố gắng kể một câu chuyện được xác định trước (giải thích) hoặc khuyến khích thử nghiệm (khám phá)?
Ở mức độ nào bạn muốn khán giả tự rút ra kết luận?
Ở mức độ nào bạn muốn khán giả theo dõi và bị thuyết phục bởi câu chuyện của bạn?
Ở mức độ nào bạn muốn khán giả thách thức những phát hiện của bạn?
Tóm lại, thiết kế tài liệu của bạn có chủ ý đưa ra thông điệp, đối tượng và các ràng buộc của bạn.
Một điều mà tôi dường như nhớ đến Tufte đã đề cập, đó không phải là trong các câu trả lời khác là ánh xạ - đó là tạo vị trí, hướng, kích thước, v.v. trên biểu đồ của bạn thể hiện thực tế . Những gì đang có trên biểu đồ nên có trong thế giới thực. Cái gì là lớn nên lớn (hãy nhớ rằng các khu vực nên đại diện cho các khu vực và khối lượng khối lượng. Đừng bao giờ cố gắng biểu thị một giá trị vô hướng theo một khu vực, điều đó rất mơ hồ!). Điều này cũng áp dụng cho màu sắc, hình dạng, vv, nếu chúng có liên quan.
Một ví dụ thú vị là biểu đồ "loạt váy" ở đây: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Mặc dù về mặt kỹ thuật là chính xác và chiều dài váy "cao hơn" chiếm vị trí cao hơn trên biểu đồ, nhưng thực sự khá khó hiểu, bởi vì chiều dài váy bắt đầu từ trên xuống và đi xuống (không giống như con người hoặc cây cối, nơi chúng ta đo chiều cao từ đất). Vì vậy, chiều dài váy tăng thực sự đại diện cho một giá trị thấp hơn :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Vẫn như mọi khi, khó khăn. Ví dụ, chúng ta thường xem xét thời gian để tiến về phía trước và ở phía tây, ít nhất, chúng ta đọc từ trái sang phải, vì vậy các biểu đồ chuỗi thời gian của chúng ta cũng thường chảy từ trái sang phải khi thời gian tăng. Vì vậy, điều gì xảy ra nếu bạn muốn đại diện cho thứ gì đó được thể hiện tốt nhất về sau (ví dụ: các phép đo đông tây của một thứ gì đó), theo thời gian? Trong trường hợp đó, bạn phải thỏa hiệp và miêu tả thời gian di chuyển lên hoặc xuống (điều này phụ thuộc một lần nữa vào nhận thức văn hóa, tôi đoán) hoặc chọn ánh xạ biến bên của bạn lên / xuống trên biểu đồ của bạn.
Nó phụ thuộc vào cách mà các lô sẽ được thảo luận.
Chẳng hạn, nếu tôi đang gửi các âm mưu cho một cuộc họp nhóm sẽ được thực hiện với những người gọi từ các địa điểm khác nhau, tôi thích đặt chúng lại với nhau trong Powerpoint chứ không phải là Excel, vì vậy việc lật lại dễ dàng hơn.
Đối với các cuộc gọi kỹ thuật trực tiếp, tôi sẽ đặt một cái gì đó trong excel để khách hàng có thể chuyển một âm mưu sang một bên và xem dữ liệu thô. Hoặc, tôi có thể nhập giá trị p vào các ô dọc theo hệ số hồi quy bên, ví dụ:
Hãy ghi nhớ: các lô rất rẻ, đặc biệt là cho một trình chiếu, hoặc để gửi email cho một nhóm. Tôi muốn tạo ra 10 ô rõ ràng mà chúng ta có thể lướt qua hơn 5 ô trong đó tôi cố gắng đặt các đoàn hệ riêng biệt (ví dụ: "nam và nữ") trên cùng một biểu đồ.
Tôi sẽ thêm rằng sự lựa chọn cốt truyện sẽ phản ánh loại kiểm tra thống kê được sử dụng để phân tích dữ liệu. Nói cách khác, bất kỳ đặc điểm nào của dữ liệu được sử dụng để phân tích đều phải được hiển thị một cách trực quan - vì vậy bạn sẽ hiển thị các phương tiện và lỗi tiêu chuẩn nếu bạn đã sử dụng kiểm tra t nhưng các ô vuông nếu bạn sử dụng thử nghiệm Mann-Whitney.