Phương pháp nào có thể được sử dụng để phát hiện tính thời vụ trong dữ liệu?


56

Tôi muốn phát hiện tính thời vụ trong dữ liệu mà tôi nhận được. Có một số phương pháp mà tôi đã tìm thấy như âm mưu tiểu mục theo mùa và âm mưu tự tương quan nhưng vấn đề là tôi không hiểu cách đọc biểu đồ, có ai có thể giúp đỡ không? Một điều khác là, có những phương pháp khác để phát hiện tính thời vụ có hoặc không có kết quả cuối cùng trong biểu đồ?


1
bạn có thể bao gồm các biểu đồ thực tế bạn đang gặp khó khăn để hiểu.
Karl

Tốt hơn là dữ liệu gốc có thể được sử dụng để tạo ACF "rắc rối".
IrishStat


1
xem: journals.ametsoc.org/doi/abs/10.1175/JCLI-D-10-05012.1 Qian, C., Z Wu, C Fu và D Wang, 2011: Về việc thay đổi El Niño: Quan điểm về thời gian thay đổi hàng năm chu kỳ, biến thiên liên tục và trạng thái trung bình. J. Climate, 24 (24), 6486 chuyến6500

Câu trả lời:


70

Một cách thực sự tốt để tìm tính định kỳ trong bất kỳ chuỗi dữ liệu thông thường nào là kiểm tra phổ công suất của nó sau khi loại bỏ bất kỳ xu hướng chung nào . .

Phổ công suất là biến đổi Fourier rời rạc của chức năng tự động điều khiển của phiên bản được làm mịn phù hợp của sê-ri gốc. Nếu bạn nghĩ chuỗi thời gian là lấy mẫu dạng sóng vật lý, bạn có thể ước tính tổng công suất của sóng được mang theo trong mỗi tần số. Phổ công suất (hoặc biểu đồ ) vẽ đồ thị so với tần số. Chu kỳ (nghĩa là các mẫu lặp đi lặp lại hoặc theo mùa) sẽ hiển thị dưới dạng các gai lớn nằm ở tần số của chúng.

Ví dụ, xem xét chuỗi thời gian còn lại (mô phỏng) này từ số đo hàng ngày được thực hiện trong một năm (365 giá trị).

hàng loạt dư

0

Đây là một âm mưu khác của cùng một dữ liệu, được vẽ để giúp chúng ta thấy các mẫu định kỳ có thể.

hàng loạt dư, điền vào 0

Nếu bạn trông thực sự khó khăn, bạn có thể nhận ra một mô hình ồn ào nhưng lặp đi lặp lại xảy ra từ 11 đến 12 lần. Các chuỗi dài của các giá trị trên 0 và dưới 0 ít nhất gợi ý một số tự tương quan dương, cho thấy chuỗi này không hoàn toàn ngẫu nhiên.

Đây là biểu đồ, được hiển thị cho tần số lên tới 91 (một phần tư tổng chiều dài chuỗi). Nó được xây dựng với một cửa sổ tiếng Wales và được chuẩn hóa thành đơn vị diện tích (cho toàn bộ biểu đồ, không chỉ phần hiển thị ở đây).

biểu đồ

Sức mạnh trông giống như "tiếng ồn trắng" (dao động ngẫu nhiên nhỏ) cộng với hai gai nổi bật. Họ rất khó bỏ lỡ phải không? Cái lớn hơn xảy ra ở khoảng thời gian 12 và nhỏ hơn ở khoảng thời gian 52. Phương pháp này do đó đã phát hiện ra một chu kỳ hàng tháng và một chu kỳ hàng tuần trong các dữ liệu này. Đó thực sự là tất cả để có nó. Để tự động phát hiện các chu kỳ ("tính thời vụ"), chỉ cần quét biểu đồ (là danh sách các giá trị) để tìm cực đại cục bộ tương đối lớn.

Đã đến lúc tiết lộ những dữ liệu này được tạo ra như thế nào.

Dữ liệu bị phân rã thành tín hiệu cộng với nhiễu

Các giá trị được tạo ra từ tổng của hai sóng hình sin, một có tần số 12 (biên độ bình phương 3/4) và một giá trị khác có tần số 52 (biên độ bình phương 1/4). Đây là những gì các gai trong biểu đồ phát hiện. Tổng của chúng được hiển thị dưới dạng đường cong đen dày. Iid Tiếng ồn bình thường của phương sai 2 sau đó đã được thêm vào, như thể hiện bởi các thanh màu xám nhạt kéo dài từ đường cong màu đen đến các chấm đỏ. Tiếng ồn này đã đưa ra các rung lắc mức thấp ở dưới cùng của biểu đồ, nếu không sẽ chỉ là một căn hộ 0. Toàn bộ hai phần ba tổng biến thiên của các giá trị là không định kỳ và ngẫu nhiên, rất ồn ào: đó là lý do tại sao rất khó để tạo ra tính tuần hoàn chỉ bằng cách nhìn vào các dấu chấm. Tuy nhiên (một phần vì có quá nhiều dữ liệu) việc tìm tần số với biểu đồ là dễ dàng và kết quả rất rõ ràng.

Các hướng dẫn và lời khuyên tốt cho tính toán biểu đồ xuất hiện trên trang web Công thức số : tìm phần "ước tính phổ công suất bằng FFT". Rmã để ước tính biểu đồ . Những minh họa này đã được tạo ra trong Mathicala 8; biểu đồ được tính toán với chức năng "Fourier" của nó.


2
Giả định "sau khi loại bỏ bất kỳ xu hướng chung nào" là gót chân Achilles vì ​​có thể có nhiều xu hướng thời gian, nhiều mức độ thay đổi tất cả trong số đó đã được loại trừ trong ví dụ của bạn. Ý tưởng rằng chuỗi đầu vào có tính chất quyết định bay vào mặt khả thi sự hiện diện của cấu trúc ARIMA theo mùa và thường xuyên. Các giá trị một lần bất thường không được xử lý sẽ làm sai lệch bất kỳ sơ đồ nhận dạng dựa trên biểu đồ nào do sự sai lệch đi xuống so với ước tính biểu đồ mang lại không quan trọng. Nếu các hiệu ứng hàng tuần và / hoặc hàng tháng thay đổi tại một thời điểm trong quy trình dựa trên biểu đồ sẽ thất bại
IrishStat

@Irish Tôi nghĩ rằng nhận xét của bạn có thể phóng đại phần nào. Điều cơ bản nhất là tìm kiếm và xử lý "Giá trị một lần bất thường" (hay còn gọi là ngoại lệ), do đó, điều này chỉ đề cập đến để nhấn mạnh rằng một số ước tính chuỗi thời gian có thể nhạy cảm với các ngoại lệ. "Xác định trong tự nhiên" mô tả sai các ý tưởng cơ bản: không ai cho rằng có tính xác định (bằng chứng là lượng nhiễu rất lớn trong mô phỏng). Mô phỏng kết hợp một tín hiệu định kỳ xác định như một mô hình - đường gần đúng trong thực tế - chỉ để minh họa sự kết nối giữa biểu đồ và tính thời vụ. (Tiếp tục ...)
whuber

2
Có, những thay đổi về tính thời vụ có thể che khuất biểu đồ (và acf, v.v.), đặc biệt là những thay đổi về tần số (không thể) hoặc pha (có thể). Các tài liệu tham khảo trong bài viết của tôi đưa ra một giải pháp để xử lý điều đó: họ khuyên bạn nên sử dụng cửa sổ chuyển động để ước tính biểu đồ. Có một nghệ thuật cho vấn đề này, và rõ ràng có những cạm bẫy, do đó phân tích chuỗi thời gian nhiều sẽ được hưởng lợi từ việc điều trị của chuyên gia, như bạn ủng hộ. Nhưng câu hỏi đặt ra là liệu có "các phương pháp khác để phát hiện tính thời vụ" hay không thể phủ nhận rằng biểu đồ là một lựa chọn mạnh mẽ về mặt thống kê, tính toán hiệu quả, dễ hiểu.
whuber

Trong thế giới của tôi, sử dụng sin / cosin là "hiệu ứng xác định" giống như các chỉ số của tháng. Lắp bất kỳ mô hình được chỉ định trước nào sẽ hạn chế các giá trị được trang bị cho một mẫu do người dùng chỉ định, thường là tiêu chuẩn phụ. Dữ liệu nên được "lắng nghe" để giúp nhà phân tích / phần mềm máy tính tiên tiến phân biệt hiệu quả giữa các đầu vào cố định và ngẫu nhiên nb Tôi gọi ARIMA làm chậm các cấu trúc như các "trình điều khiển" ngẫu nhiên hoặc thích ứng khi các giá trị được trang bị điều chỉnh / thích ứng với các thay đổi trong lịch sử của bộ truyện. Theo ý kiến ​​của tôi, việc sử dụng biểu đồ thống kê đơn giản "vượt quá" mô hình thống kê đơn giản
IrishStat

2
@whuber Lặp lại điều tương tự có thể không hữu ích. Tuy nhiên, cũng có thể tốt khi sửa đoạn dưới biểu đồ để nói rằng các gai được đặt ở "tần số" 12 và 52 lần mỗi năm, chứ không phải là "khoảng thời gian". Sửa cốt truyện quá để nói "tần số" thay vì "thời gian" cũng có thể tốt nếu bạn nghĩ nó không quá khó chịu.
Celelibi

19

Đây là một ví dụ sử dụng dữ liệu hàng tháng về tuyên bố thất nghiệp nhật ký từ một thành phố ở New Jersey (từ Stata, chỉ vì đó là những gì tôi đã phân tích những dữ liệu này ban đầu). ACF theo mùa

Độ cao của các đường biểu thị mối tương quan giữa một biến và độ trễ sth của chính nó; vùng màu xám cho bạn biết liệu mối tương quan này có ý nghĩa hay không (phạm vi này chỉ là hướng dẫn và không phải là cách đáng tin cậy nhất để kiểm tra tầm quan trọng). Nếu mối tương quan này cao, có bằng chứng về tương quan nối tiếp. Lưu ý các bướu xảy ra trong khoảng thời gian 12, 24 và 36. Vì đây là dữ liệu hàng tháng, điều này cho thấy mối tương quan trở nên mạnh mẽ hơn khi bạn nhìn vào các giai đoạn chính xác 1, 2 hoặc 3 năm trước. Đây là bằng chứng về tính thời vụ hàng tháng.

Bạn có thể kiểm tra các mối quan hệ này một cách thống kê bằng cách hồi quy biến trên các biến giả cho biết thành phần thời vụ --- ở đây, tháng giả. Bạn có thể kiểm tra tầm quan trọng chung của những hình nộm đó để kiểm tra tính thời vụ.

Quy trình này không hoàn toàn đúng, vì thử nghiệm yêu cầu các thuật ngữ lỗi không tương quan với nhau. Vì vậy, trước khi kiểm tra các hình nộm theo mùa này, chúng ta cần loại bỏ mối tương quan nối tiếp còn lại (thường bằng cách bao gồm độ trễ của biến). Có thể có các xung, ngắt và tất cả các vấn đề về chuỗi thời gian khác mà bạn cần sửa cũng như để có kết quả phù hợp từ thử nghiệm. Bạn đã không hỏi về những điều đó, vì vậy tôi sẽ không đi sâu vào chi tiết (cộng với, có rất nhiều câu hỏi CV về các chủ đề đó). (Chỉ để khơi gợi sự tò mò của bạn, loạt bài này yêu cầu các hình nộm tháng, một độ trễ duy nhất của chính nó và một thành phần thay đổi để thoát khỏi mối tương quan nối tiếp.)


4

Tính thời vụ có thể và thường thay đổi theo thời gian do đó các biện pháp tóm tắt có thể khá bất cập để phát hiện cấu trúc. Người ta cần kiểm tra tính nhất thời trong các hệ số ARIMA và thường thay đổi trong các hình nộm theo mùa vụ của Cameron. Ví dụ, trong một chân trời 10 năm có thể không có hiệu ứng tháng Sáu trong k năm đầu tiên nhưng 10 năm k cuối cùng có bằng chứng về hiệu ứng tháng Sáu. Hiệu ứng tổng hợp tháng 6 đơn giản có thể không đáng kể vì hiệu ứng không phải là hằng số theo thời gian. Theo cách tương tự, một thành phần ARIMA theo mùa cũng có thể đã thay đổi. Cần thận trọng để bao gồm các thay đổi cấp địa phương và hoặc xu hướng thời gian địa phương trong khi đảm bảo rằng phương sai của các lỗi vẫn không đổi theo thời gian. Người ta không nên đánh giá các phép biến đổi như GLS / bình phương tối thiểu có trọng số hoặc biến đổi công suất như các bản ghi / căn bậc hai, v.v. trên dữ liệu gốc nhưng về các lỗi từ mô hình dự kiến. Các giả định Gaussian không liên quan gì đến dữ liệu được quan sát nhưng tất cả đều liên quan đến các lỗi từ mô hình. Điều này là do nền tảng của các thử nghiệm thống kê sử dụng tỷ lệ của biến chi bình phương không trung tâm với biến chi bình phương trung tâm.

Nếu bạn muốn đăng một loạt ví dụ từ thế giới của bạn, tôi sẽ vui lòng cung cấp cho bạn và danh sách một phân tích kỹ lưỡng dẫn đến việc phát hiện cấu trúc theo mùa.


1

Câu trả lời của Charlie là tốt, và đó là nơi tôi bắt đầu. Nếu bạn không muốn sử dụng đồ thị ACF, bạn có thể tạo các biến giả k-1 cho khoảng thời gian k hiện tại. Sau đó, bạn có thể xem liệu các biến giả có ý nghĩa trong hồi quy với các biến giả (và có thể là một thuật ngữ xu hướng).

Nếu dữ liệu của bạn là hàng quý: giả Q2 là 1 nếu đây là quý thứ hai, 0 khác giả 3 là 1 nếu đây là quý thứ ba, khác 0 giả Q4 là 1 nếu đây là quý IV, khác 0 Lưu ý quý 1 là trường hợp cơ sở (tất cả 3 hình nộm bằng không)

Bạn cũng có thể muốn kiểm tra "phân tách chuỗi thời gian" trong Minitab - thường được gọi là "phân tách cổ điển". Cuối cùng, bạn có thể muốn sử dụng một cái gì đó hiện đại hơn, nhưng đây là một nơi đơn giản để bắt đầu.


0

Tôi muốn nhận lời đề nghị giúp đỡ từ người dùng IrishStat hoặc bất kỳ ai khác trong loạt ví dụ về thế giới thực của tôi. Tôi đang cố gắng tạo ra một chỉ số theo mùa dựa trên 5 năm cuối cùng của giá dầu thô tương lai. Tôi đã quản lý để tạo ra một Mùa trung bình đơn giản có thể xem tại đây .

Tuy nhiên, tôi muốn tái tạo một biểu đồ theo mùa hàng năm (Tôi đoán việc lăn có nghĩa là bắt đầu và kết thúc năm có cùng giá trị) và có tỷ lệ từ 0 đến 100 như được hiển thị dưới đây: nhập mô tả hình ảnh ở đây

Có 15 năm dữ liệu mức giá hàng ngày trong bảng tính có thể được tải xuống. Ví dụ hoặc bất kỳ gợi ý về cách đạt được những điều trên sẽ được đánh giá rất cao.


-1

Bản thân tôi cũng chưa quen với R, nhưng hiểu biết của tôi về chức năng ACF là nếu đường thẳng đứng phía trên đường đứt nét trên hoặc dưới đường đứt nét phía dưới, có một số lỗi tự động (bao gồm cả tính thời vụ). Hãy thử tạo một vectơ sin


Sines / cosines phù hợp vv có thể hữu ích cho một số chuỗi thời gian vật lý / điện nhưng bạn phải biết về MSB, Xu hướng Đặc tả Mô hình.
IrishStat

1
Tự động không bao hàm tính thời vụ.
Jens
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.