Một cách phổ biến để "nói dối với dữ liệu" là sử dụng thang đo trục y làm cho dường như những thay đổi có ý nghĩa hơn so với thực tế.
Khi tôi xem xét các ấn phẩm khoa học, hoặc báo cáo trong phòng thí nghiệm của sinh viên, tôi thường thất vọng vì "tội lỗi trực quan hóa dữ liệu" này (mà tôi tin rằng các tác giả đã vô tình phạm phải, nhưng vẫn dẫn đến một bài thuyết trình sai lệch.)
Tuy nhiên, "luôn luôn khởi động trục y ở mức 0" không phải là quy tắc khó và nhanh. Ví dụ, Edward Tufte chỉ ra rằng trong một chuỗi thời gian, đường cơ sở không nhất thiết phải bằng không:
Nói chung, trong một chuỗi thời gian, sử dụng đường cơ sở hiển thị dữ liệu không phải là điểm không. Nếu điểm 0 xảy ra hợp lý trong việc vẽ dữ liệu, tốt thôi. Nhưng đừng dành nhiều không gian thẳng đứng trống rỗng để cố gắng đạt đến điểm 0 với chi phí che giấu những gì đang diễn ra trong chính dòng dữ liệu. (Cuốn sách, Làm thế nào để nói dối với thống kê, là sai ở điểm này.)
Ví dụ, ở mọi nơi, không có điểm 0 trong chuỗi thời gian, hãy xem bất kỳ ấn phẩm nghiên cứu khoa học lớn nào. Các nhà khoa học muốn hiển thị dữ liệu của họ, không phải không.
Mong muốn bối cảnh hóa dữ liệu là một điều tốt, nhưng bối cảnh không đến từ không gian dọc trống rỗng xuống đến không, một con số thậm chí không xảy ra trong nhiều bộ dữ liệu tốt. Thay vào đó, đối với bối cảnh, hiển thị nhiều dữ liệu hơn theo chiều ngang!
Tôi muốn chỉ ra cách trình bày sai lệch trong các bài báo mà tôi xem xét, nhưng tôi không muốn trở thành một người theo chủ nghĩa thuần túy trục 0.
Có bất kỳ hướng dẫn nào giải quyết khi nào bắt đầu trục y ở mức 0 và khi điều này là không cần thiết và / hoặc không phù hợp? (Đặc biệt là trong bối cảnh của công việc học tập.)