Các lựa chọn thay thế cho các trục bị hỏng là gì?


28

Người dùng thường bị phá vỡ các giá trị trục để trình bày dữ liệu của các bậc độ lớn khác nhau trên cùng một biểu đồ (xem tại đây ). Mặc dù điều này có thể thuận tiện nhưng không phải lúc nào nó cũng là cách hiển thị dữ liệu ưa thích (tốt nhất có thể gây hiểu nhầm). Các cách khác để hiển thị dữ liệu khác nhau theo một số bậc độ lớn là gì?

Tôi có thể nghĩ ra hai cách, để chuyển đổi dữ liệu hoặc sử dụng các ô mạng. Các lựa chọn khác là gì?


1
Những hướng dẫn Excel đó trông khá ma quái ...

5
Bạn có thể tưởng tượng một hướng dẫn về R trông như thế nào đối với một người chưa bao giờ nhìn thấy một dòng mã trong cuộc sống của mình không? :)
Roman Luštrik

3
Ok, nhưng tôi cũng có thể tưởng tượng tất cả những người vẽ thủ công hàng chục lần ngắt thanh trong Excel và tin rằng đó là cách duy nhất (và do đó dễ nhất và nhanh nhất) để làm điều này. Hoặc mọi người dành hàng giờ cố gắng để thống nhất định dạng trong một tài liệu Word lớn.

1
"Cha ơi, tha thứ cho họ, vì họ không biết họ đang làm gì." Nghĩ đến. :)
Roman Luštrik

3
Ban nhạc chính thức của stats.stackexchange.com: The Broken Axes.
Matt Parker

Câu trả lời:


17

Tôi rất cảnh giác khi sử dụng các trục logarit trên đồ thị thanh . Vấn đề là bạn phải chọn điểm bắt đầu của trục và điều này hầu như luôn luôn tùy ý. Bạn có thể chọn làm cho hai thanh có chiều cao rất khác nhau hoặc gần như cùng một chiều cao, chỉ bằng cách thay đổi giá trị tối thiểu trên trục. Cả ba biểu đồ này đều biểu thị cùng một dữ liệu: văn bản thay thế

Một thay thế cho các trục không liên tục, mà chưa ai đề cập đến, chỉ đơn giản là hiển thị một bảng các giá trị. Trong nhiều trường hợp, các bảng dễ hiểu hơn biểu đồ.


3
Những biểu đồ đó trông cũng rất lừa dối vì bạn không có thanh lỗi trên chúng. Nếu bạn thêm các thanh lỗi, sự khác biệt sẽ trông ít hơn đáng kể. Hoặc bạn có thể sử dụng các ô hình hộp và râu ria mà hầu như tránh được loại vấn đề này.
nico

5
IMHO nguồn gốc là một vấn đề của biểu đồ thanh và không liên quan gì đến logarit. Bạn có thể đạt được cùng một ấn tượng lừa dối với các trục tuyến tính.
cbeleites hỗ trợ Monica

@cbeleites. Có, bạn có thể tạo biểu đồ thanh sai lệch với trục tuyến tính bằng cách thay đổi đường cơ sở. Nhưng với một trục tuyến tính, đường cơ sở tự nhiên bằng không. Với các trục logarit, trong hầu hết các bối cảnh, không có đường cơ sở tự nhiên.
Harvey Motulsky

@HarveyMotulsky: Tôi xin không đồng ý. Có cả một lớp dữ liệu được mô tả tốt bởi các trục log và có một đường cơ sở tự nhiên: các thay đổi / tỷ lệ nhân. Trong ví dụ của bạn, có thể tín hiệu được xử lý là 15 lần tín hiệu điều khiển. Nếu giả định đó có ý nghĩa đối với ứng dụng, bạn có đường cơ sở "tự nhiên" cho nhật ký. Nếu không, có thể một biến đổi khác là hợp lý hơn?
cbeleites hỗ trợ Monica

1
@cbeleites Tôi đồng ý rằng nếu biến là tỷ lệ thì 1.0 là đường cơ sở tự nhiên, sau đó hiển thị nó trên thang đo log có ý nghĩa.
Harvey Motulsky

11

Một số ý tưởng bổ sung:

(1) Bạn không cần phải giới hạn bản thân với một phép biến đổi logarit. Tìm kiếm trang web này cho thẻ "chuyển đổi dữ liệu", ví dụ. Một số dữ liệu tự cho vay tốt với các biến đổi nhất định như gốc hoặc logit. (Các phép biến đổi như vậy - ngay cả các bản ghi - thường được tránh khi xuất bản đồ họa cho đối tượng không có kỹ thuật. Mặt khác, chúng có thể là công cụ tuyệt vời để xem các mẫu trong dữ liệu.)

(2) Bạn có thể mượn một kỹ thuật bản đồ tiêu chuẩn để đặt một chi tiết của biểu đồ bên trong hoặc bên cạnh biểu đồ của bạn. Cụ thể, bạn sẽ tự vẽ các giá trị cực trị trên một biểu đồ và tất cả (hoặc) phần còn lại của dữ liệu trên một phạm vi trục giới hạn hơn, sau đó sắp xếp đồ họa hai cùng với chỉ dẫn (trực quan và / hoặc bằng văn bản) của mối quan hệ giữa họ. Hãy nghĩ về một bản đồ của Hoa Kỳ trong đó Alaska và Hawaii được đặt ở các tỷ lệ khác nhau. (Điều này sẽ không hoạt động với tất cả các loại biểu đồ, nhưng có thể hiệu quả với các biểu đồ thanh trong hình minh họa của bạn.) [Tôi thấy điều này tương tự như câu trả lời gần đây của mbq.]

(3) Bạn có thể hiển thị các ô bị hỏng cạnh nhau với cùng một âm mưu trên các trục không bị phá vỡ.

(4) Trong trường hợp ví dụ về biểu đồ thanh của bạn, hãy chọn trục dọc phù hợp (có lẽ được kéo dài) và cung cấp tiện ích xoay. [Đây là một mánh khóe hơn là một kỹ thuật thực sự hữu ích, IMHO, nhưng nó có thể hữu ích trong một số trường hợp đặc biệt.]

(5) Chọn một lược đồ khác để hiển thị dữ liệu. Thay vì biểu đồ thanh sử dụng độ dài để biểu thị các giá trị, ví dụ: chọn biểu đồ trong đó các khu vực biểu tượng đại diện cho các giá trị. [Rõ ràng là sự đánh đổi có liên quan ở đây.]

Sự lựa chọn kỹ thuật của bạn có thể sẽ phụ thuộc vào mục đích của cốt truyện: các lô được tạo để khám phá dữ liệu thường khác với các lô cho đối tượng chung, chẳng hạn.


8

Có lẽ nó có thể được phân loại là mạng tinh thể, nhưng tôi sẽ thử; vẽ tất cả các thanh được chia tỷ lệ lên cao nhất trong một bảng và đặt một bảng khác hiển thị thu phóng trên các bảng thấp hơn. Tôi đã sử dụng kỹ thuật này một lần trong trường hợp phân tán, và kết quả khá tốt.


8

Tôi muốn tách vấn đề về trục log khỏi vấn đề về biểu đồ thanh.

Các trục logarit IMHO phù hợp nhất cho những điều đến hoặc xảy ra theo bội số (... tăng thêm 20 lần khi được xử lý bằng ...).
Trong trường hợp đó, 1 = 10⁰ là nguồn gốc tự nhiên. Có một loạt các giá trị vật lý / hóa học trong thực tế là logarit, ví dụ pH hoặc độ hấp thụ và có nguồn gốc "tự nhiên". Đối với A đó sẽ là . Đối với pH trong các dung dịch aqeous, ví dụ 7.I 0A=lgI0lgII0

Biểu đồ thanh không bao giờ có thể hợp lý nếu không có nguồn gốc hợp lý và cố định có vai trò kiểm soát (đường cơ sở, trống). Nhưng điều này không có gì để làm với các trục log.
Việc sử dụng thường xuyên duy nhất tôi có cho biểu đồ thanh là biểu đồ. Nhưng tôi có thể tưởng tượng rằng họ làm tốt để thể hiện sự khác biệt đối với nguồn gốc này (bạn cũng thấy ngay sự khác biệt đó là tích cực hay tiêu cực). Bởi vì các thanh mô tả một khu vực, tôi có xu hướng nghĩ về barcharts như một phiên bản rất rời rạc của khu vực dưới một đường cong. Nghĩa là, trục x nên có nghĩa là số liệu (có thể là trường hợp theo thời gian, nhưng không phải với các thành phố).

Nếu tôi thấy mình băn khoăn không biết nên sử dụng nguồn gốc nào cho nhật ký của thứ gì đó có nguồn gốc "tự nhiên" ở mức 0, tôi sẽ lùi lại và suy nghĩ một chút về những gì đang diễn ra. Rất thường xuyên, những vấn đề như vậy chỉ là một chỉ báo cho thấy nhật ký không phải là một sự chuyển đổi hợp lý ở đây.

Bây giờ một biểu đồ thanh với trục log sẽ nhấn mạnh tăng hoặc giảm xảy ra trong bội số. Các ví dụ hợp lý mà tôi có thể nghĩ ra ngay bây giờ đều có một số mối quan hệ tuyến tính với một giá trị quan tâm. Nhưng có lẽ người khác tìm thấy một ví dụ tốt.

Vì vậy, tôi nghĩ rằng việc chuyển đổi dữ liệu phải hợp lý đối với ý nghĩa của dữ liệu trong tay. Đây là trường hợp với các đơn vị hóa lý tôi đã đề cập ở trên (A tỷ lệ thuận với nồng độ, và ví dụ, pH có mối quan hệ tuyến tính với điện áp trong máy đo pH). Trong thực tế, rất nhiều trường hợp, đơn vị nhật ký có được một tên mới và được sử dụng theo cách tuyến tính.

Cuối cùng, nhưng không kém phần quan trọng, tôi đến từ quang phổ rung động, nơi các trục bị hỏng được sử dụng khá thường xuyên. Và tôi xem xét việc sử dụng một trong một vài ví dụ trong đó việc phá rìu không lừa dối. Tuy nhiên, chúng tôi không có thay đổi theo thứ tự cường độ. Chúng tôi chỉ có một vùng không chính xác là 30 - 40% trong phạm vi x của chúng tôi: Đây là một ví dụ: quang phổ Đối với mẫu này, phần trong khoảng 1800 - 2800 / cm không thể chứa bất kỳ thông tin hữu ích nào.
Do đó, phạm vi phổ không nhất quán bị loại bỏ (điều này cũng chỉ ra phạm vi phổ chúng ta thực sự sử dụng cho mô hình hóa học): loại bỏ phổ không thông tin

Nhưng để giải thích dữ liệu, chúng ta cần đọc chính xác vị trí x. Nhưng nhìn chung, chúng ta không cần bội số trải rộng trong các phạm vi khác nhau (nghĩa là có các mối quan hệ như vậy, nhưng hầu hết các kết nối phức tạp hơn. Ví dụ: Tín hiệu ở 3050 / cm, vì vậy chúng ta có chất không bão hòa hoặc thơm. Nhưng không có tín hiệu mạnh ở 1000 / cm , do đó, không có vòng thơm đơn, meta, cũng không thay thế 1,3,5 ...)
Vì vậy, tốt hơn là mô tả x với tỷ lệ lớn hơn (thực tế chúng ta thường sử dụng tờ milimet như hướng dẫn hoặc dán nhãn vị trí chính xác). Vì vậy, chúng tôi phá vỡ trục và có tỷ lệ x lớn hơn: phổ - trục bị hỏng

Trên thực tế, nó rất giống với khía cạnh: phiên bản nâng cấp
nhưng trục gãy IMHO nhấn mạnh rằng tỷ lệ của trục x trong cả hai phần là như nhau. Nghĩa là các khoảng trong các vùng được vẽ giống nhau.

Để nhấn mạnh cường độ nhỏ (trục y), chúng tôi sử dụng các phần tử được phóng to:
nhập mô tả hình ảnh ở đây
[ ... Để biết chi tiết, hãy xem vùng được phóng to (x 20) màu xanh lam .... ]

Và điều này chắc chắn là có thể với ví dụ trong các ô được liên kết là tốt.


2

Hai ý tưởng đã được ám chỉ, nhưng không được mô tả rõ ràng khi tôi xem các câu trả lời và nhận xét xuất sắc là bạn đang sử dụng biểu đồ thanh "theo cách không phù hợp với ghi nhãn" và dữ liệu không chuẩn / không thứ nguyên.

Loại lô:

Biểu đồ kiểu sao / nhện / radar (liên kết) (liên kết) thường rất tốt để so sánh một số thứ khác nhau dọc theo nhiều tọa độ. Có một số cốt truyện rất hữu ích mà (đáng buồn thay) rất hiếm trong các bài thuyết trình kinh doanh, có thể là do lãnh đạo thích sử dụng kết luận để đưa ra quyết định thay vì sử dụng thông tin để hiểu và sau đó sử dụng sự hiểu biết để đưa ra quyết định. Trong kinh doanh đôi khi rất khó để xây dựng sự đồng thuận và vì vậy cách tiếp cận chỉ có kết quả có thể mang lại hiệu quả cao hơn trong môi trường đồng thuận, quyết định tiếp theo. Điều này cho biết mức độ phổ biến của biểu đồ thanh / cột. Vui lòng xem xét các ví dụ về các loại biểu đồ khác tốt cho việc hiểu biết (liên kết) .

Biến đổi:

Nếu bạn chia các giá trị mà bạn đang lập biểu đồ cho một giá trị "đặc trưng" thì bạn có thể chuyển đổi tỷ lệ để cải thiện khả năng đọc mà không mất thông tin. Fluid Dynamicists thích các số không thứ nguyên vì tiện ích dự đoán và tính đàn hồi của chúng trong ứng dụng. Họ xem những thứ như Định lý Buckingham Pi là nguồn cho các hình thức không liên kết (liên kết) của ứng viên . Các số phổ biến và hữu ích, không thứ nguyên bao gồm Số Reynold, số Mach, số Biot, số Grashof, số Pi, số Raleigh, số Stokes và số Sherwood. (liên kết) Bạn không cần phải là một nhà vật lý để yêu những con số không thứ nguyên bởi vì chúng rất hữu ích trong các ứng dụng phi vật lý. Các phép đo như mật độ, độ đồng nhất, độ tròn và độ đồng phẳng có thể xác định hình ảnh, trường pixel hoặc phân phối xác suất đa biến. Đừng chỉ xem xét lấy logarit hoặc khoảng cách tương đối từ một giá trị đã biết - bạn cũng có thể xem xét đảo ngược các số, lấy căn bậc hai của chúng.

May mắn nhất. Xin vui lòng cho chúng tôi biết làm thế nào mọi thứ bật ra.


1
Hầu hết các nhà chức trách dữ liệu phản đối mạnh mẽ việc sử dụng biểu đồ radar. Họ rất khó để giải thích. Một thay thế tốt hơn nhiều là một biểu đồ tọa độ song song .
Jon Peltier

@JonPeltier - Tôi đồng ý, nhưng Excel không (tại thời điểm tôi trả lời) có một cách rõ ràng để tạo một biểu đồ tọa độ song song, vì vậy có khả năng khán giả của anh ấy sẽ phải vật lộn rất nhiều để hiểu.
EngrStudent - Phục hồi Monica

1

Giải pháp trục gãy hoạt động tốt nhất khi có một sự phá vỡ rõ ràng ngay trên lô và lệnh được dán nhãn sao cho khoảng cách là rõ ràng. Ưu điểm của điều này là thang đo được bảo toàn trên hai bộ giá trị. Các ô bảng với các tỷ lệ khác nhau có thể không chuyển tải sự thay đổi tương đối trong các nhóm thấp và cao. Tôi thích ý tưởng về cốt truyện phóng to, mà tôi đã lập trình cho các biểu đồ phân tán nhưng chưa nghĩ đến việc sử dụng cho các ô đồ thị.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.