Có sai không khi sử dụng các ô dòng cho dữ liệu rời rạc?


12

Tôi thường thấy các bộ dữ liệu rời rạc được vẽ dưới dạng các ô dòng, nhưng đối với tôi, dòng này có giá trị tại một điểm giữa các khoảng thời gian đo vô nghĩa đối với các bộ dữ liệu rời rạc. Do đó, có phải trường hợp sử dụng các ô dòng cho dữ liệu rời rạc là sai?

Ví dụ: lấy hai bộ dữ liệu chuỗi thời gian, một bộ liên tục (cân nặng của tôi, được đo hàng ngày vào buổi sáng) và một bộ rời rạc (số lượng bánh rán tôi ăn mỗi ngày). Thật hợp lý khi tập dữ liệu đầu tiên là một biểu đồ đường thẳng, vì thật hợp lý khi suy ra rằng cân nặng của tôi trong bất kỳ buổi chiều nào sẽ liên quan đến cân nặng của tôi vào buổi sáng trước và sau buổi sáng. Tuy nhiên, nếu số lượng bánh rán được biểu diễn dưới dạng biểu đồ đường thì các đường giữa các dấu chấm không có nghĩa nào có thể được suy ra từ dòng đó.

BIÊN TẬP

Dưới đây là một ví dụ khác: Mức lương tối thiểu hàng giờ của Liên bang kể từ khi bắt đầu âm mưu tại http://mste.illinois.edu/cifts/ci330ms/youtsey/lineinfo.html

Trừ khi tôi nhầm, các thay đổi tiền lương tối thiểu là rời rạc, và do đó không thể tìm kiếm một số thời gian được lựa chọn tùy ý và thiết lập mức lương tối thiểu tại điểm bằng cách sử dụng đường nối các dấu chấm.


3
(+1) Ví dụ về mức lương tối thiểu hàng giờ là tuyệt vời. Chính câu hỏi của bạn cho thấy một câu trả lời hay: cụ thể là, việc kết nối các điểm trên biểu đồ là không hợp lệ khi nó khiến người đọc đưa ra các phép nội suy không chính xác (hoặc hoàn toàn không hợp lệ). Phân biệt sự không thống nhất và không liên tục sẽ giúp phân tích sâu hơn: tiêu thụ bánh rán là rời rạc trong khi mức lương tối thiểu là không liên tục. Mỗi người xứng đáng có một hình thức cốt truyện khác nhau.
whuber

Có các ô trong đó một biểu đồ phân tán với dữ liệu rời rạc bị sai lệch trên một biểu đồ dòng. Đối với các trường hợp eample trong đó một chuỗi các sự kiện là cần thiết (độ trễ) hoặc dao động giữa hai cấp độ xảy ra và người ta cần theo dõi các thay đổi trạng thái và vị trí của chúng. Vì vậy: không sử dụng các sơ đồ đường để ngụ ý nội suy, mà sử dụng chúng như hướng dẫn nếu thích hợp. Nó không đủ đơn giản để makr một quy tắc lựa chọn đơn giản nhưng cần xem xét dữ liệu và mô hình trong tay.
wirrbel

1
Câu hỏi thú vị! Cảm ơn vì điều đó. Tôi đang xử lý rất nhiều dữ liệu liên quan đến thời gian, một phần bắt nguồn từ các mô hình rời rạc và dữ liệu được đo một phần. Còn về tùy chọn sử dụng các ô dòng bước cho dữ liệu rời rạc (có thể liên tục theo cách nhưng chúng ta vẫn không có chức năng giữa các điểm đơn lẻ và không thể giả sử có một) và các dữ liệu thông thường cho dữ liệu liên tục? Đó là cách tôi đối phó với nó ..
Cord Kaldemeyer

@CordKaldemeyer cảm ơn vì đã bình luận - Tôi không biết loại biểu đồ "bước biểu đồ", nhưng đó chắc chắn là thứ tôi đang tìm kiếm. Tôi cũng tìm thấy hướng dẫn hữu ích này về cách thực hiện các sơ đồ dòng bước trong Excel: trumpetexcel.com/step-chart-in-excel
user1379351

@ user1379351: Vui mừng tôi có thể giúp!
Dây Kaldemeyer

Câu trả lời:


9

Các ô dòng được kết nối đã được chứng minh là quá hữu ích để giới hạn trong một diễn giải. Một vài công dụng nổi bật:

  • Giá trị nội suy . Trường hợp bạn đề cập đến nơi cả hai biến liên tục và mọi điểm được nội suy dọc theo dòng là một cách giải thích có ý nghĩa.
  • Tỷ lệ thay đổi . Ngay cả khi các giá trị ở giữa không có ý nghĩa, độ dốc của từng đoạn đường là một đại diện tốt cho tốc độ thay đổi. Lưu ý rằng đối với cách giải thích này, các giá trị X và Y phải được đặt cách nhau một cách thích hợp, đây không phải là trường hợp trong biểu đồ tiền lương bạn trích dẫn.
  • So sánh hồ sơ . Khi so sánh các bội số nhỏ hoặc các biện pháp chồng chéo, các dòng có thể hữu ích ngay cả đối với các yếu tố phân loại. Trong trường hợp này, các dòng phục vụ để kết nối các nhóm phản hồi để nhận dạng mẫu hạn chế. Dưới đây là một ví dụ từ peltiertech.com với hệ số trên trục Y (thay vì trục X) để dễ đọc nhãn:

nhập mô tả hình ảnh ở đây


1
Đúng, nhưng đồ thị thứ 2 và thứ 3 hoàn toàn ít mạnh hơn đồ thị thứ nhất, vì người ta không thể sử dụng phép tính nào cả.
Milind R

5

Chà, bánh rán có thể liên quan đến trọng lượng :-)

Trong khi tôi thấy quan điểm của bạn, tôi nghĩ ví dụ này không tệ lắm vì thời gian (trên trục hoành, đó là những gì các dòng đề cập đến) liên tục. Đối với tôi, ý nghĩa của dòng này không nhiều đến nỗi, vào mỗi thời điểm trong ngày bạn ăn một số bánh rán nhất định, nhưng số lượng bánh rán mỗi ngày thay đổi theo cách thông thường. Vì vậy, chúng tôi có thể thêm một cái gì đó như một hoàng thổ mượt mà hơn vào dòng, và nó sẽ có ý nghĩa. Ít nhất là hợp lý khi nghĩ về bánh rán ăn mỗi giờ, hoặc thậm chí mỗi phút (mặc dù điều này sẽ hợp lý hơn với một biến số có số lượng mỗi ngày cao hơn)

Điều đáng lo ngại hơn là khi trục ngang rời rạc (và đặc biệt là khi nó là danh nghĩa) nhưng các đường được vẽ. Điều này thực sự không có ý nghĩa. Ví dụ, nếu bạn đang xem (nói) tỷ lệ bỏ phiếu cho Obama trong số (nói) cư dân ở các khu vực khác nhau của Hoa Kỳ, sẽ không có ý nghĩa gì khi vạch ra một ranh giới giữa Đông Bắc và Trung Tây; đặc biệt vì thứ tự của các vùng là tùy ý, nhưng thay đổi thứ tự sẽ thay đổi các dòng. Tuy nhiên, tôi đã thấy các biểu đồ như thế này.


1
Hoàn toàn đồng ý rằng có những lạm dụng tồi tệ hơn nhiều của biểu đồ đường ra khỏi đó. Tôi thích cách tiếp cận mượt mà hơn vì nó không kết nối các dấu chấm, và do đó không ngụ ý dữ liệu không có ở đó. Nhưng nó phục vụ để làm nổi bật xu hướng đáng lo ngại trong tiêu thụ bánh rán. Cảm ơn!
dùng1379351

3
Bạn dường như đang đề xuất thay thế một biến - tiêu thụ bánh rán - bằng một biến khác; cụ thể là mật độ tiêu thụ bánh rán (bánh rán trên mỗi đơn vị thời gian). Mặc dù điều này thường được thực hiện - đặc biệt là trong các phân tích hai chiều (như bản đồ về mật độ dân số) - và có thể rất hiệu quả, nhưng sẽ tốt cho độc giả biết rằng có một sự khác biệt và xem xét cách phân biệt đó có thể được tiết lộ đồ họa.
whuber

2
@whuber Đó là một điểm công bằng; dòng dường như làm cho sự thay thế đó. Một biểu đồ không tạo ra sự thay thế đó chỉ có thể là các chấm, không được kết nối, nhưng dường như điều đó tạo ra ít nhất một gợi ý về mức tiêu thụ bánh rán được đặt tại một điểm cụ thể. Vì vậy, chúng ta có thể hiển thị thời gian là liên tục và đặt dấu chấm tại thời điểm khi một chiếc bánh rán được tiêu thụ.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.