Kết nối các dấu chấm trong biểu đồ


8

Cho một đồ thị là tích của một phương trình, chúng ta có thể tính toán một cách có ý nghĩa bất kỳ điểm nào giải phương trình, và do đó, cũng là một đường thẳng đi qua các điểm. Dòng, tại bất kỳ điểm nào của nó, là câu trả lời.

Nhưng những gì về các biện pháp như "số lượng xe mỗi giờ / bãi đậu xe." Liệu nó có ý nghĩa để kết nối các dấu chấm của mỗi biện pháp hàng giờ? Điều này sẽ không dẫn chúng ta đến kết quả sai, hoặc ít nhất là kết quả sai lệch, vì chúng ta không biết có bao nhiêu chiếc xe trong thời gian đó?

Câu trả lời:


8

Có nhiều lý do để kết nối các điểm trong biểu đồ. Nếu bạn chỉ hiển thị một loại giá trị (nghĩa là nếu có một dòng thì sẽ chỉ có một), thì quy tắc liên tục so với rời rạc nói chung là tốt để tuân theo. Tuy nhiên, thậm chí các giá trị rời rạc hoặc phân loại có thể được kết nối khi có thể cần nhiều dòng để giúp dễ dàng theo dõi biến thể mẫu trên trục x. Vấn đề là tạo ra một câu chuyện mạch lạc, và nếu một dòng làm cho câu chuyện trở nên hợp lý hơn hoặc dễ theo dõi hơn thì hãy thêm nó. Nếu nó làm mất thì hãy loại bỏ nó.

Trong trường hợp của bạn, một biểu đồ có một điểm cho mỗi lô và giờ trên trục x tôi sẽ rất có xu hướng vẽ các đường biểu đồ kết nối giờ cho mỗi lô. Và, trong khi bạn có phương tiện theo giờ, các giá trị trục x là khoảng thời gian được đo và liên tục về mặt lý thuyết (tất cả liên tục có thể được lập luận là khoảng thời gian được đo), do đó có thêm sự biện minh ở đó.

Đối với các thanh, như áp phích khác đề cập. Tôi hầu như luôn luôn tránh chúng. Một điểm thường tốt hơn ngay cả đối với các loại dữ liệu thường được cho là được điền bởi các thanh.

Cũng xem xét rằng, trừ khi các bãi đỗ xe có cùng kích thước, số lượng xe là sai lệch. Một biểu đồ với diện tích cố định và các thanh điển hình ngụ ý rằng mỗi thanh đại diện cho cùng một vật phẩm trong không gian như nhau. Bạn chỉ giải quyết được một phần vấn đề đó với tỷ lệ ô tô trong lô. Một thay thế khi chỉ có một khoảng thời gian sẽ có các thanh trống cho biết kích thước của các lô và sau đó lấp đầy chúng với số lượng xe. Nhưng điều này sẽ quá phức tạp khi chứng minh nhiều lô. Biểu đồ đường tỷ lệ lấp đầy được kết nối qua nhiều giờ với một dòng cho mỗi lô là cách tốt nhất để đến đây.


Đồng ý, đặc biệt nếu bạn đang cố gắng so sánh hai hoặc nhiều bộ dữ liệu (giả sử ba bãi đỗ xe) theo thời gian. Cố gắng giữ các chấm màu khác nhau và hoán đổi thẳng mà không có đường là khó. Thông thường khá rõ ràng rằng nếu biểu đồ đường là một đường nối các điểm mà các điểm đó rời rạc và nếu chỉ là một đường thì nó phản ánh dữ liệu liên tục.
Wayne

Đồng ý rằng các dòng giúp phân biệt các bộ riêng biệt; Tôi đã chứng minh điểm này trong câu trả lời của tôi.
Nick Stauner

1

IMHO, bất cứ ai lần đầu tiên bỏ qua thời gian thay đổi chính xác number of carslà người đầu tiên chịu trách nhiệm cho bất kỳ kết quả sai lệch nào. Nếu bạn có thông tin này (ngay cả khi được đo bằng lỗi), timethì đó sẽ là một biến liên tục thích hợp, không nhất thiết phải là biến liên tục được nhóm (xem Anderson, 1984). Bạn có thể tự do phân nhóm các quan sát thành các hourthùng dựa trên cơ sở nếu bạn thực sự muốn, tại thời điểm đó, bạn phải chịu trách nhiệm về việc đưa ra bất kỳ kết quả sai lệch nào. Mặt khác, bằng cách duy trì thời gian đến chính xác, bạn có thể vẽ biểu đồ number of cars của mình liên tục timemột cách chính xác.

Dù sao, giả sử bạn bị mắc kẹt với number of carsmỗihour, Tôi đồng ý với @John, bạn nên vẽ một đường kết nối các quan sát hàng giờ của bạn. Nếu bạn thiếu thông tin về thời điểm mỗi thay đổi gia tăng xảy ra, thật khó để nói rằng bạn đang lừa dối bất cứ ai trừ khi bạn không mô tả giới hạn của thông tin được biểu thị. Tương tự, nếu bạn vẽ biểu đồ dữ liệu hàng giờ của mình bằng biểu đồ thanh đơn giản không có đường nối giữa các thùng, bạn không thực sự phạm tội đánh lừa bất cứ ai nếu bạn không cho rằng những thay đổi giữa các quan sát hàng giờ xảy ra chính xác như được mô tả, vào giờ, tất cả trong một. Nếu ai đó hiểu nhầm (có thể sẽ xảy ra với bất kỳ thống kê hoặc dữ liệu nào được công bố đầy đủ), đó sẽ không phải là trường hợp bạn hiểu sai về họ, đặc biệt nếu bạn mô tả chi tiết về quy trình và dữ liệu của mình. Điều này không nên khó thực hiện.

Với sự rõ ràng cơ bản và kỹ lưỡng của các mô tả dữ liệu và đồ thị, sẽ không có bất lợi nào khi vẽ một đường thẳng để kết nối các thùng của bạn. Các lợi thế của kết nối thùng của bạn là trong thực tế những gì bạn dường như nghĩ là nhược điểm: vẽ những dòng bắt chước một phương trình nửa phong nha cho number of carslà một hàm liên tục time, mặc dù nó dựa trên rời rạc, quan sát từng giờ. Bạn có thể sử dụng một đường thẳng giữa các quan sát để thể hiện một giả định khá hợp lý rằng sự thay đổi xảy ra tuyến tính trên từng quan điểm hour, không phải tất cả cùng một lúc. Dựa trên giả định như vậy, bất kỳ độc giả nào cũng có thể đoán được rằng minutesau khi một hourphép đo nhất định sẽ thấy chiếc xe tiếp theo đến hoặc rời đi bằng thủ tục bốn bước khá phổ biến này:

  1. Tìm điểm trên đường thẳng trong đó quan sát của lần trướcnumber of cars = =1+hour
  2. Vẽ một đường thẳng xuống từ điểm này để tìm nơi nó giao với hourtrục
  3. Đo distanceđiểm này trên hourtrục từ điểm quan sát trước đó
  4. distance × 60 =÷ distance between observations ×60= = minute sau khi hourxe đến.

Tất nhiên, người ta cũng có thể ước tính chiếc xe tiếp theo sẽ xuống đến giây chính xác và bạn không thể ngăn độc giả thực hiện điều này bằng cách không cung cấp dòng - vẽ đường chỉ trở thành bước đầu tiên trong năm bước. Do đó, nếu ai đó thực sự muốn biết có bao nhiêu chiếc xe trong lúc đó ... tốt, họ không thể, vì thông tin không có sẵn, nhưng họ có thể ước tính. Nếu bạn loại bỏ một bước khỏi quy trình cho họ, tôi tưởng tượng họ sẽ biết ơn.

Làm điều này cho độc giả của bạn bằng những đường thẳng đơn giản chỉ ngụ ý sự thoải mái của bạn với giả định rằng sự thay đổi xảy ra tuyến tính giữa các quan sát hàng giờ, hoặc nói rõ hơn, bạn không quan tâm đến bất kỳ sự không chính xác nào trong giả định này. Không chính xác không khó để tưởng tượng. Đầu tiên, thay đổi nhất thiết phải xảy ra như là một hàm phi tuyến, không phồng của time. Đó là phi tuyến vì sự kiện thay đổi là ternary : hoặc một chiếc xe đến, lá, hay không - những chiếc xe không đến hoặc nghỉ trong từng bước phân đoạn. Nó không phồng lên vì hầu hết thời gian sẽ không thấy một chiếc xe đến hay rời đi. Bạn có thể khắc phục điều này bằng cách coi đường dây như mô tả những probabilitychiếc xe sẽ đến hoặc rời đi trong bất kỳ thời điểm nào để đạt được số nguyên gần nhất.

Tuy nhiên, một sự không chính xác khác của giả định đằng sau các đường thẳng giữa các quan sát hàng giờ vẫn còn. Bạn có thể mong đợi tốc độ thay đổi (về mặt probabilitynhư trên) sẽ thay đổi suôn sẻ hơn theo thời gian so với các đường thẳng của bạn được vẽ riêng giữa các điểm ngụ ý. Theo thuật ngữ toán học nhiều hơn, bạn có thể muốn đạo hàm của hàm number of cars( hour) liên tục trên hours. Bạn có thể có thể làm điều này bằng cách lắp một hàm đa thức để dữ liệu của bạn, nhưng nếu mục đích của bạn là tiên đoán, hãy cẩn thận của .

Một lợi thế khác của các dòng so với các thanh kiểu biểu đồ (nghĩa là không có khoảng cách trung gian cho các giá trị liền kề của hour... hãy để các biểu đồ với các thanh không "chạm" vào nhau) phát sinh từ lotbiến đa thức của bạn . Bạn có thể xếp chồng chuỗi thời gian riêng biệt của mình cho từng lô trên cùng một biểu đồ để tạo điều kiện so sánh, điều này sẽ giúp bạn xem liệu lotbiến của bạn có thú vị hay không. Đây là một minh chứng với một số dữ liệu tạo thành:

Thanh danh cho McCown !

Tôi thậm chí sẽ không cố gắng tìm ra cách để làm điều đó mạch lạc với các thanh; Tôi sẽ để điều đó cho @ ChristianStade-Schuldt;) Để công bằng, việc kết nối các điểm này như anh ấy đề xuất thậm chí còn dễ dàng hơn, nhưng việc thêm các dòng giúp phân biệt các điểm tương ứng với các chuỗi thời gian riêng biệt với nhau. Cuối cùng, nó vẫn sẽ hơi chủ quan, vì vậy hãy tự đánh giá:

Tôi cho một người thấy mình vẽ những dòng trong tâm trí của tôi dù sao. BTW, nếu bạn cảm thấy các đường trong hình đầu tiên làm mất đi mọi thứ từ tác động trực quan của các điểm chính xác, đừng quên rằng bạn luôn có thể tăng kích thước của các điểm, thay đổi hình dạng của chúng hoặc trình bày các giá trị của chúng trong một bảng riêng biệt .

Tham khảo
Anderson, JA (1984). Hồi quy và sắp xếp các biến phân loại. Tạp chí của Hiệp hội Thống kê Hoàng gia B, 46 , 1 trận30.


1

Một dòng liên tục chỉ ra một sự liên tục. Nếu trung bình nên được vẽ, tôi sẽ xem xét sử dụng sơ đồ thanh hoặc sơ đồ bước cầu thang. Vẽ các điểm riêng lẻ cũng có thể và khi tính trung bình, bạn có thể thêm thông tin độ lệch chuẩn khi cần thiết.


0

Tôi sẽ không kết nối những điểm đó bởi vì đó là những giá trị rời rạc. Tùy thuộc vào số lượng điểm dữ liệu, bạn có thể sử dụng biểu đồ cột / thanh hoặc chỉ các điểm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.