So sánh các bộ chuỗi thời gian


10

Tôi có ba bộ dữ liệu chuỗi thời gian tôi đang tìm kiếm để so sánh. Chúng đã được thực hiện trong 3 khoảng thời gian riêng biệt trong khoảng 12 ngày. Chúng là số lượng đầu trung bình, tối đa và tối thiểu được lấy trong thư viện đại học trong các tuần chung kết. Tôi đã phải làm trung bình, tối đa và tối thiểu vì số lượng đầu giờ không liên tục (xem các khoảng trống dữ liệu thông thường trong một chuỗi thời gian ).

Bây giờ bộ dữ liệu trông như thế này. Có một điểm dữ liệu (trung bình, tối đa hoặc tối thiểu) mỗi tối, trong 12 buổi tối. Có 3 học kỳ dữ liệu được thực hiện, chỉ trong thời gian 12 ngày quan tâm. Vì vậy, ví dụ, Mùa xuân 2010, Mùa thu 2010 và Tháng 5 năm 2011, mỗi nhóm có 12 điểm. Dưới đây là một biểu đồ ví dụ:

nhập mô tả hình ảnh ở đây

Tôi đã phủ lên các học kỳ bởi vì tôi muốn xem các mô hình thay đổi từ học kỳ này sang học kỳ như thế nào. Tuy nhiên, như tôi đã nói trong chuỗi liên kết , không nên đánh vào đầu các học kỳ vì không có dữ liệu ở giữa.

Câu hỏi là: Tôi có thể sử dụng kỹ thuật toán học nào để so sánh mô hình tham dự cho mỗi học kỳ? Có điều gì đặc biệt đối với chuỗi thời gian mà tôi phải làm không, hoặc đơn giản là tôi có thể lấy phần trăm chênh lệch không? Mục tiêu của tôi là nói rằng việc sử dụng thư viện trong những ngày này sẽ tăng hoặc giảm; Tôi chỉ không chắc chắn những kỹ thuật nào tôi nên sử dụng để hiển thị nó.

Câu trả lời:


8

Hiệu ứng cố định ANOVA (hoặc tương đương hồi quy tuyến tính của nó) cung cấp một nhóm phương thức mạnh mẽ để phân tích các dữ liệu này. Để minh họa, đây là một bộ dữ liệu phù hợp với các lô trung bình HC mỗi tối (một ô trên mỗi màu):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA countchống lại daycolorsản xuất bảng này:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Các modelgiá trị p của 0.0000 chương trình phù hợp là rất quan trọng. Các daygiá trị p của 0.0000 cũng là rất quan trọng: bạn có thể phát hiện ngày để thay đổi mỗi ngày. Tuy nhiên, colorgiá trị p (học kỳ) là 0,001 không nên được coi là đáng kể: bạn không thể phát hiện sự khác biệt có hệ thống giữa ba học kỳ, ngay cả sau khi kiểm soát sự thay đổi của ngày này sang ngày khác.

Bài kiểm tra HSD ("khác biệt có ý nghĩa trung thực") của Tukey xác định các thay đổi quan trọng sau đây (trong số các thay đổi khác) trong phương tiện hàng ngày (bất kể học kỳ) ở mức 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Điều này xác nhận những gì mắt có thể nhìn thấy trong các biểu đồ.

Bởi vì các biểu đồ nhảy xung quanh khá nhiều, không có cách nào để phát hiện các mối tương quan hàng ngày (tương quan nối tiếp), đó là toàn bộ phân tích chuỗi thời gian. Nói cách khác, đừng bận tâm với các kỹ thuật chuỗi thời gian: không có đủ dữ liệu ở đây để họ cung cấp bất kỳ thông tin chi tiết nào lớn hơn.

Mọi người nên luôn tự hỏi bao nhiêu để tin vào kết quả của bất kỳ phân tích thống kê. Các chẩn đoán khác nhau cho tính không đồng nhất (như xét nghiệm Breusch-Pagan ) không cho thấy bất cứ điều gì không mong muốn. Phần dư trông không bình thường lắm - chúng tụ lại thành một số nhóm - vì vậy tất cả các giá trị p phải được lấy bằng một hạt muối. Tuy nhiên, chúng dường như cung cấp hướng dẫn hợp lý và giúp định lượng ý nghĩa của dữ liệu chúng ta có thể nhận được từ việc nhìn vào biểu đồ.

Bạn có thể thực hiện phân tích song song trên cực tiểu hàng ngày hoặc cực đại hàng ngày. Đảm bảo bắt đầu với một âm mưu tương tự như một hướng dẫn và để kiểm tra đầu ra thống kê.


+1, để trình diễn các kỹ thuật đơn giản nhưng mạnh mẽ. Tôi tò mò nhất mặc dù bạn đã quản lý để trích xuất các giá trị từ biểu đồ như thế nào? Một số phần mềm, hoặc một hình phạt cho học sinh cư xử xấu? :)
mpiktas

1
@mp Tôi đã số hóa các điểm trên ảnh chụp màn hình của đồ họa, trích xuất tọa độ của chúng bằng phần mềm GIS, chuyển đổi tọa độ bằng bảng tính, sau đó nhập nó vào gói thống kê. Chỉ mất vài phút. Phương pháp này có thể hữu ích khi dữ liệu duy nhất bạn có ở dạng biểu đồ hoặc bản đồ.
whuber

@whuber Thats tuyệt! Tôi đã không nhận thức được điều này.
suncoolsu

@whuber Tôi tự hỏi hiệu quả của việc có 3 bộ 12 bài đọc tự động so với 36 quan sát độc lập. Tôi nghĩ rằng chúng ta thực sự không có 35 bậc tự do để giải quyết. Các xác suất bạn phản ánh dựa trên tỷ lệ của một biến chi bình phương không trung tâm với một biến chi bình phương trung tâm. Có cái gì tôi đang thiếu ở đây? Công việc tốt đẹp để trích xuất các con số từ cốt truyện. Có một chương trình cụ thể mà bạn có thể tham khảo để hỗ trợ chúng tôi về vấn đề này.
IrishStat

1
@Irish Gọi là giá trị trung bình (trong số màu) trong một ngày và có nghĩa là khác. Tôi giả sử homoscedasticity; nghĩa là ( không xác định). So sánh mong muốn ("sử dụng ... tăng hoặc giảm") kiểm tra xem . Không có tương quan, . Với mối tương quan giữa và , . Khi , phương sai thực sự nhỏ hơn giả định trong mô hình ANOVA. Do đó, thống kê t, thống kê F và Tukey HSD đều phải nhiều hơny V a r ( x ) = V a r ( y ) = σ 2 σ x - y = 0 V a r ( x - y ) = 2 σ 2 ρ x y V a r ( x - y ) = 2 ( 1 - ρ ) σ 2 ρ > 0xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0đáng kể hơn họ xuất hiện.
whuber

0

Sarah, Lấy 36 số của bạn (12 giá trị mỗi chu kỳ; 3 chu kỳ) và xây dựng mô hình hồi quy với 11 chỉ số phản ánh hiệu ứng trong tuần của học kỳ và sau đó xác định bất kỳ Chuỗi can thiệp cần thiết nào (Xung, Chuyển dịch cấp độ) cần thiết để hiển thị giá trị trung bình của phần dư là 0,0 ở mọi nơi hoặc ít nhất là không khác biệt có ý nghĩa thống kê so với 0,0. Ví dụ: nếu bạn xác định sự thay đổi cấp độ ở giai đoạn 13, điều này có thể gợi ý sự khác biệt có ý nghĩa thống kê giữa giá trị trung bình của học kỳ đầu tiên, tức là 12 giá trị đầu tiên) so với giá trị trung bình của hai học kỳ cuối (24 giá trị cuối). Bạn có thể rút ra suy luận hoặc kiểm tra giả thuyết không có tuần nào của hiệu ứng học kỳ. Một gói chuỗi thời gian tốt có thể hữu ích cho bạn về vấn đề này. Thất bại trong việc bạn có thể cần tìm ai đó để cung cấp trợ giúp trong lĩnh vực phân tích này.


1
Điều này nghe có vẻ như một mô tả về ANOVA hai chiều (ngày theo chu kỳ) theo sau là các thử nghiệm theo kế hoạch gồm 11 cặp ngày. Phần mềm thống kê cũ đơn giản có thể sẽ linh hoạt và mạnh mẽ hơn để sử dụng so với phần mềm chuỗi thời gian chuyên dụng; nó chắc chắn sẽ dễ dàng hơn BTW, các chỉ số là ngày (vào giai đoạn thi), không phải tuần của học kỳ.
whuber

Tôi cũng có thể sử dụng ANOVA để so sánh mức tối đa và tối thiểu mỗi ngày không? Hay điều này chỉ áp dụng cho các phương tiện?
induvidyul

@Sarah Nó có thể được áp dụng cho cực tiểu và cực đại. Tuy nhiên, những thống kê đó có xu hướng thay đổi nhiều hơn so với phương tiện, do đó, ít có khả năng bạn sẽ có thể phát hiện các thay đổi trong chúng theo thời gian hoặc giữa các học kỳ. Biểu đồ của bạn làm rõ rằng các phương tiện làm khác nhau đáng kể. Nếu bạn có thể, hãy thực hiện ANOVA ba chiều bằng cách kết hợp giờ trong ngày và sử dụng số giờ ban đầu thay vì phương tiện hàng ngày của họ.
whuber

@whuber: Tôi đã được thông báo rằng việc xâu chuỗi dữ liệu hàng giờ là không thể sử dụng được, vì chúng chỉ được ghi lại trong 12 giờ sáng đến 6 giờ sáng. Xem câu hỏi trước của tôi Khoảng cách dữ liệu thường xuyên trong một chuỗi thời gian .
induvidyul

@Sarah Tôi đang nói về một cái gì đó khác nhau: mô hình sự phụ thuộc theo ba yếu tố: giai đoạn (3 trong số đó), ngày thành giai đoạn (12 trong số đó) và giờ trong ngày (6 trong số đó). Bạn thậm chí có thể tính đến các mối tương quan giữa các giờ, nhưng điều đó có thể không cần thiết cho mục đích của bạn. Bất kể, tôi không ủng hộ việc xem từng thời kỳ như một chuỗi 12 * 24 bị gián đoạn: có quá nhiều dữ liệu bị thiếu.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.