Làm thế nào để xác định xem trục y của đồ thị có nên bắt đầu từ 0 hay không?


45

Một cách phổ biến để "nói dối với dữ liệu" là sử dụng thang đo trục y làm cho dường như những thay đổi có ý nghĩa hơn so với thực tế.

Khi tôi xem xét các ấn phẩm khoa học, hoặc báo cáo trong phòng thí nghiệm của sinh viên, tôi thường thất vọng vì "tội lỗi trực quan hóa dữ liệu" này (mà tôi tin rằng các tác giả đã vô tình phạm phải, nhưng vẫn dẫn đến một bài thuyết trình sai lệch.)

Tuy nhiên, "luôn luôn khởi động trục y ở mức 0" không phải là quy tắc khó và nhanh. Ví dụ, Edward Tufte chỉ ra rằng trong một chuỗi thời gian, đường cơ sở không nhất thiết phải bằng không:

Nói chung, trong một chuỗi thời gian, sử dụng đường cơ sở hiển thị dữ liệu không phải là điểm không. Nếu điểm 0 xảy ra hợp lý trong việc vẽ dữ liệu, tốt thôi. Nhưng đừng dành nhiều không gian thẳng đứng trống rỗng để cố gắng đạt đến điểm 0 với chi phí che giấu những gì đang diễn ra trong chính dòng dữ liệu. (Cuốn sách, Làm thế nào để nói dối với thống kê, là sai ở điểm này.)

Ví dụ, ở mọi nơi, không có điểm 0 trong chuỗi thời gian, hãy xem bất kỳ ấn phẩm nghiên cứu khoa học lớn nào. Các nhà khoa học muốn hiển thị dữ liệu của họ, không phải không.

Mong muốn bối cảnh hóa dữ liệu là một điều tốt, nhưng bối cảnh không đến từ không gian dọc trống rỗng xuống đến không, một con số thậm chí không xảy ra trong nhiều bộ dữ liệu tốt. Thay vào đó, đối với bối cảnh, hiển thị nhiều dữ liệu hơn theo chiều ngang!

Tôi muốn chỉ ra cách trình bày sai lệch trong các bài báo mà tôi xem xét, nhưng tôi không muốn trở thành một người theo chủ nghĩa thuần túy trục 0.

Có bất kỳ hướng dẫn nào giải quyết khi nào bắt đầu trục y ở mức 0 và khi điều này là không cần thiết và / hoặc không phù hợp? (Đặc biệt là trong bối cảnh của công việc học tập.)


3
Tôi nghĩ việc có bao gồm (không bao gồm) 0 có khả năng gây hiểu lầm hay không phụ thuộc rất nhiều vào câu chuyện được kể.
gung - Phục hồi Monica

2
Trong một cuộc nói chuyện, cụm từ "lưu ý số 0 bị triệt tiêu cao" hoặc tương tự có thể được sử dụng để mang lại sự trung thực cho một nhân vật có khả năng gây hiểu lầm. Tôi không hài lòng với điều đó trong tài liệu in, nhưng trong một nhúm bạn cũng có thể sử dụng nó ở đó.
dmckee

Để tránh tất cả điều này, tôi đang sử dụng boxplots bất cứ khi nào có thể. Không cần tính toán phương tiện và thanh lỗi và nó chứa đầy thông tin có giá trị (ví dụ: phân phối dữ liệu, lan truyền, độ lệch, phạm vi) tất cả trong một âm mưu. Thêm vào đó, bạn đang hiển thị dữ liệu thô.
Stefan

y=0

@NickCox cảm ơn bình luận của bạn! Tôi đồng ý rằng sau khi ANOVA đã được thực hiện hiển thị phương tiện và thanh lỗi có ý nghĩa hơn. Tuy nhiên, trước khi chạy bất kỳ phân tích nào, tôi thấy các ô vuông có nhiều thông tin hơn và cung cấp thông tin về việc dữ liệu của bạn trông như thế nào và liệu ANOVA được chọn có thể phù hợp hay không. "Nói dối với dữ liệu" có thể đã xảy ra khi ví dụ: các thử nghiệm tham số được chọn nhưng dữ liệu không đáp ứng các giả định bắt buộc. Do đó, với tư cách là một người đọc các nghiên cứu khoa học, tôi luôn thích nhìn thấy các ô vuông để tạo nên suy nghĩ của riêng mình về các kết quả được trình bày.
Stefan

Câu trả lời:


40
  • Đừng sử dụng không gian trong biểu đồ theo bất kỳ cách nào không giúp hiểu. Không gian là cần thiết để hiển thị dữ liệu!

  • Sử dụng phán đoán khoa học (kỹ thuật, y tế, xã hội, kinh doanh, ...) cũng như phán đoán thống kê của bạn. (Nếu bạn không phải là khách hàng hoặc khách hàng, hãy nói chuyện với ai đó trong lĩnh vực này để có ý tưởng về những gì thú vị hoặc quan trọng, tốt nhất là những người đưa ra phân tích.)

  • y

Đó là ba quy tắc đơn giản. (Không có gì loại trừ một số căng thẳng giữa họ đôi khi.)

Dưới đây là một ví dụ đơn giản, nhưng cả ba điểm đều phát sinh: Bạn đo nhiệt độ cơ thể của một bệnh nhân ở Celsius, hoặc ở Fahrenheit, hoặc thậm chí ở kelvin: hãy lựa chọn. Theo nghĩa nào thì nó hữu ích hoặc thậm chí hợp lý để nhấn mạnh vào việc hiển thị nhiệt độ bằng không? Quan trọng, thậm chí quan trọng về mặt y tế hoặc sinh lý, thông tin sẽ bị che khuất nếu không.

Đây là một câu chuyện có thật từ một bài thuyết trình. Một nhà nghiên cứu đã cho thấy dữ liệu về tỷ số giới tính cho các tiểu bang và vùng lãnh thổ liên minh khác nhau ở Ấn Độ. Đồ họa là một biểu đồ thanh với tất cả các thanh bắt đầu từ 0. Tất cả các thanh gần với cùng một chiều dài mặc dù có một số thay đổi đáng kể. Điều đó là chính xác, nhưng câu chuyện thú vị là các khu vực khác nhau mặc dù có sự tương đồng, không phải là chúng giống nhau mặc dù có sự khác biệt. Tôi cho rằng sự tương đương giữa nam và nữ (1 hoặc 100 nữ / 100 nam) là mức tham chiếu tự nhiên hơn nhiều. (Tôi cũng sẽ sẵn sàng sử dụng một số cấp độ tổng thể, chẳng hạn như trung bình quốc gia, làm tài liệu tham khảo.) Ngay cả một số người thống kê đã nghe câu chuyện nhỏ này đôi khi trả lời: "Không; các thanh luôn luôn bắt đầu từ 0". Đối với tôi điều đó không tốt hơn giáo điều không liên quan trong trường hợp như vậy.

yy

Một loại cốt truyện phổ biến, đặc biệt là trong một số ngành khoa học sinh học và y học, cho thấy các phương tiện hoặc tóm tắt khác bằng các thanh dày bắt đầu từ 0 và sai số chuẩn hoặc các khoảng dựa trên độ lệch chuẩn cho thấy độ không chắc chắn của các thanh mỏng. Những kíp nổ hoặc thuốc nổ như vậy, như chúng được gọi bởi những người không tán thành, có thể được phổ biến một phần vì một câu lệnh không nên luôn luôn hiển thị. Hiệu quả ròng là nhấn mạnh các so sánh với số 0 thường thiếu sự quan tâm hoặc tiện ích.

Một số người muốn hiển thị số không, nhưng cũng để thêm một tỷ lệ phá vỡ để cho thấy rằng quy mô bị gián đoạn. Thời trang thay đổi và công nghệ thay đổi. Nhiều thập kỷ trước, khi các nhà nghiên cứu vẽ biểu đồ của riêng họ hoặc giao nhiệm vụ cho các kỹ thuật viên, việc yêu cầu thực hiện bằng tay sẽ dễ dàng hơn. Bây giờ các chương trình đồ họa thường không hỗ trợ phá vỡ quy mô, mà tôi nghĩ là không mất. Ngay cả khi họ làm, đó là bổ sung cầu kỳ có thể lãng phí một phần vừa phải của khu vực đồ họa.

x

Tự nhiên có một quy tắc zeroth áp dụng ngoài ba quy tắc được đề cập.

  • Dù bạn làm gì, hãy rất rõ ràng. Dán nhãn trục của bạn một cách nhất quán và thông tin. Sau đó tin tưởng rằng độc giả cẩn thận sẽ nhìn để xem những gì bạn đã làm.

Vì vậy, về điểm này, tôi đồng ý mạnh mẽ với Edward Tufte và tôi không đồng ý với Darrell Huff.

EDIT ngày 9 tháng 5 năm 2016:

thay vì cố gắng bao gồm một đường cơ sở 0 trong tất cả các biểu đồ của bạn, thay vào đó hãy sử dụng các đường cơ sở hợp lý và có ý nghĩa

Cairo, A. 2016. Nghệ thuật trung thực: Dữ liệu, Biểu đồ và Bản đồ cho truyền thông. San Francisco, CA: Những kỵ sĩ mới, tr.136.


7
Bên cạnh đó: Tôi nghĩ mọi người dễ bị gắn bó một cách giáo điều với "bắt đầu từ 0" khi dữ liệu được biểu thị bằng các thanh, với lý do các thanh hiển thị khu vực và khu vực bị sai lệch nếu nó không bắt đầu từ 0. Trên một âm mưu chấm ở Cleveland - thường là một hình ảnh phù hợp hơn - dường như không có lý lẽ nào hấp dẫn như vậy để bắt đầu từ con số 0, và mọi người dường như sẵn sàng linh hoạt hơn về nơi họ bắt đầu.
Cá bạc

4
Câu trả lời chính xác. Tôi đã hỏi câu hỏi này trong bối cảnh xem xét một bài báo sử dụng nhất quán các phạm vi trục không phù hợp (nhấn mạnh các biến thể không đáng kể trong dữ liệu). Câu trả lời này khiến tôi nhận ra rằng điều tôi thực sự thất vọng là thiếu phán đoán (thống kê và kỹ thuật) trong việc hiểu và giải thích dữ liệu - một điều mang tính xây dựng hơn để nhận xét trong đánh giá hơn là phàn nàn về phạm vi trục.
ff524

4
Quy tắc về việc bắt đầu trục ở mức 0 chỉ có ý nghĩa khi nghĩ về các biến liên tục có tỷ lệ, vì vậy số 0 có ý nghĩa thực sự. Trọng lượng 0 là không trọng lượng. V.v. Nhưng nhiệt độ trong C hoặc F sử dụng các giá trị tùy ý cho 0, vì vậy không có lý do gì để bắt đầu trục ở đó.
Harvey Motulsky

2

3
Đẹp, nhưng tôi muốn chỉ ra rằng điểm "phán xét" phụ thuộc vào khán giả (khán giả luôn là vấn đề!). Khán giả kỹ thuật sẽ đọc trục và hiểu ý nghĩa. Một phần nhất định của dân số giáo dân sẽ nhất quyết bỏ qua các nhãn trục và rút ra kết luận từ hình dạng của biểu đồ theo các giả định có thể không chính xác về tỷ lệ. Nếu biểu đồ được dành cho đối tượng giáo dân thì bạn phải đưa yếu tố đó vào phán đoán của mình.
dmckee
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.