IMHO, bất cứ ai lần đầu tiên bỏ qua thời gian thay đổi chính xác number of cars
là người đầu tiên chịu trách nhiệm cho bất kỳ kết quả sai lệch nào. Nếu bạn có thông tin này (ngay cả khi được đo bằng lỗi), time
thì đó sẽ là một biến liên tục thích hợp, không nhất thiết phải là biến liên tục được nhóm (xem Anderson, 1984). Bạn có thể tự do phân nhóm các quan sát thành các hour
thùng dựa trên cơ sở nếu bạn thực sự muốn, tại thời điểm đó, bạn phải chịu trách nhiệm về việc đưa ra bất kỳ kết quả sai lệch nào. Mặt khác, bằng cách duy trì thời gian đến chính xác, bạn có thể vẽ biểu đồ number of cars
chuỗi thời gian của mình liên tục time
một cách chính xác.
Dù sao, giả sử bạn bị mắc kẹt với number of cars
mỗihour
, Tôi đồng ý với @John, bạn nên vẽ một đường kết nối các quan sát hàng giờ của bạn. Nếu bạn thiếu thông tin về thời điểm mỗi thay đổi gia tăng xảy ra, thật khó để nói rằng bạn đang lừa dối bất cứ ai trừ khi bạn không mô tả giới hạn của thông tin được biểu thị. Tương tự, nếu bạn vẽ biểu đồ dữ liệu hàng giờ của mình bằng biểu đồ thanh đơn giản không có đường nối giữa các thùng, bạn không thực sự phạm tội đánh lừa bất cứ ai nếu bạn không cho rằng những thay đổi giữa các quan sát hàng giờ xảy ra chính xác như được mô tả, vào giờ, tất cả trong một. Nếu ai đó hiểu nhầm (có thể sẽ xảy ra với bất kỳ thống kê hoặc dữ liệu nào được công bố đầy đủ), đó sẽ không phải là trường hợp bạn hiểu sai về họ, đặc biệt nếu bạn mô tả chi tiết về quy trình và dữ liệu của mình. Điều này không nên khó thực hiện.
Với sự rõ ràng cơ bản và kỹ lưỡng của các mô tả dữ liệu và đồ thị, sẽ không có bất lợi nào khi vẽ một đường thẳng để kết nối các thùng của bạn. Các lợi thế của kết nối thùng của bạn là trong thực tế những gì bạn dường như nghĩ là nhược điểm: vẽ những dòng bắt chước một phương trình nửa phong nha cho number of cars
là một hàm liên tục time
, mặc dù nó dựa trên rời rạc, quan sát từng giờ. Bạn có thể sử dụng một đường thẳng giữa các quan sát để thể hiện một giả định khá hợp lý rằng sự thay đổi xảy ra tuyến tính trên từng quan điểm hour
, không phải tất cả cùng một lúc. Dựa trên giả định như vậy, bất kỳ độc giả nào cũng có thể đoán được rằng minute
sau khi một hour
phép đo nhất định sẽ thấy chiếc xe tiếp theo đến hoặc rời đi bằng thủ tục bốn bước khá phổ biến này:
- Tìm điểm trên đường thẳng trong đó quan sát của lần trước
number of cars
= 1 +hour
- Vẽ một đường thẳng xuống từ điểm này để tìm nơi nó giao với
hour
trục
- Đo
distance
điểm này trên hour
trục từ điểm quan sát trước đó
distance
× 60 =÷ distance between observations
× 60 = minute
sau khi hour
xe đến.
Tất nhiên, người ta cũng có thể ước tính chiếc xe tiếp theo sẽ xuống đến giây chính xác và bạn không thể ngăn độc giả thực hiện điều này bằng cách không cung cấp dòng - vẽ đường chỉ trở thành bước đầu tiên trong năm bước. Do đó, nếu ai đó thực sự muốn biết có bao nhiêu chiếc xe trong lúc đó ... tốt, họ không thể, vì thông tin không có sẵn, nhưng họ có thể ước tính. Nếu bạn loại bỏ một bước khỏi quy trình cho họ, tôi tưởng tượng họ sẽ biết ơn.
Làm điều này cho độc giả của bạn bằng những đường thẳng đơn giản chỉ ngụ ý sự thoải mái của bạn với giả định rằng sự thay đổi xảy ra tuyến tính giữa các quan sát hàng giờ, hoặc nói rõ hơn, bạn không quan tâm đến bất kỳ sự không chính xác nào trong giả định này. Không chính xác không khó để tưởng tượng. Đầu tiên, thay đổi nhất thiết phải xảy ra như là một hàm phi tuyến, không phồng của time
. Đó là phi tuyến vì sự kiện thay đổi là ternary : hoặc một chiếc xe đến, lá, hay không - những chiếc xe không đến hoặc nghỉ trong từng bước phân đoạn. Nó không phồng lên vì hầu hết thời gian sẽ không thấy một chiếc xe đến hay rời đi. Bạn có thể khắc phục điều này bằng cách coi đường dây như mô tả những probability
chiếc xe sẽ đến hoặc rời đi trong bất kỳ thời điểm nào để đạt được số nguyên gần nhất.
Tuy nhiên, một sự không chính xác khác của giả định đằng sau các đường thẳng giữa các quan sát hàng giờ vẫn còn. Bạn có thể mong đợi tốc độ thay đổi (về mặt probability
như trên) sẽ thay đổi suôn sẻ hơn theo thời gian so với các đường thẳng của bạn được vẽ riêng giữa các điểm ngụ ý. Theo thuật ngữ toán học nhiều hơn, bạn có thể muốn đạo hàm của hàm number of cars
( hour
) liên tục trên hour
s. Bạn có thể có thể làm điều này bằng cách lắp một hàm đa thức để dữ liệu của bạn, nhưng nếu mục đích của bạn là tiên đoán, hãy cẩn thận của overfitting .
Một lợi thế khác của các dòng so với các thanh kiểu biểu đồ (nghĩa là không có khoảng cách trung gian cho các giá trị liền kề của hour
... hãy để các biểu đồ với các thanh không "chạm" vào nhau) phát sinh từ lot
biến đa thức của bạn . Bạn có thể xếp chồng chuỗi thời gian riêng biệt của mình cho từng lô trên cùng một biểu đồ để tạo điều kiện so sánh, điều này sẽ giúp bạn xem liệu lot
biến của bạn có thú vị hay không. Đây là một minh chứng với một số dữ liệu tạo thành:
Thanh danh cho McCown !
Tôi thậm chí sẽ không cố gắng tìm ra cách để làm điều đó mạch lạc với các thanh; Tôi sẽ để điều đó cho @ ChristianStade-Schuldt;) Để công bằng, việc kết nối các điểm này như anh ấy đề xuất thậm chí còn dễ dàng hơn, nhưng việc thêm các dòng giúp phân biệt các điểm tương ứng với các chuỗi thời gian riêng biệt với nhau. Cuối cùng, nó vẫn sẽ hơi chủ quan, vì vậy hãy tự đánh giá:
Tôi cho một người thấy mình vẽ những dòng trong tâm trí của tôi dù sao. BTW, nếu bạn cảm thấy các đường trong hình đầu tiên làm mất đi mọi thứ từ tác động trực quan của các điểm chính xác, đừng quên rằng bạn luôn có thể tăng kích thước của các điểm, thay đổi hình dạng của chúng hoặc trình bày các giá trị của chúng trong một bảng riêng biệt .
Tham khảo
Anderson, JA (1984). Hồi quy và sắp xếp các biến phân loại. Tạp chí của Hiệp hội Thống kê Hoàng gia B, 46 , 1 trận30.