Làm thế nào để cụm thời gian cụm?


21

Tôi có một câu hỏi về phân tích cụm. Có 3000 công ty, phải được phân cụm theo cách sử dụng năng lượng của họ trong hơn 5 năm. Mỗi công ty có giá trị cho mỗi giờ trong 5 năm. Tôi muốn tìm hiểu xem một số công ty có mô hình tương tự về sức mạnh sử dụng trong khoảng thời gian. Các kết quả nên được sử dụng để dự đoán hàng ngày về việc sử dụng năng lượng. Nếu bạn có một số ý tưởng về cách phân cụm chuỗi thời gian trong SPSS, vui lòng chia sẻ với tôi.


1
Tôi khuyên bạn nên kiểm tra các liên kết liên quan ở phía bên phải của trang. Có khá nhiều câu hỏi có tính chất rất giống nhau, xem Có thể thực hiện phân cụm chuỗi thời gian dựa trên hình dạng đường cong không? Mô hình hóa dữ liệu theo chiều dọc trong đó ảnh hưởng của thời gian thay đổi ở dạng chức năng giữa các cá nhân chỉ với hai ví dụ.
Andy W

Proc Tương tự trong SAS có thể cụm chuỗi thời gian.
dự báo

Câu trả lời:


11

A) Dành nhiều thời gian cho việc xử lý trước dữ liệu. Tiền xử lý là 90% công việc của bạn.

B) Chọn một thước đo tương tự thích hợp cho chuỗi thời gian. Ví dụ, khoảng cách vượt ngưỡng có thể là một lựa chọn tốt ở đây. Bạn có thể sẽ không mong muốn khoảng cách cong vênh thời gian, trừ khi bạn có các múi giờ khác nhau. Ngưỡng ngang có thể phù hợp hơn để phát hiện các mẫu thời gian, trong khi không chú ý đến cường độ thực tế (có thể sẽ rất khác nhau giữa các công ty).

C) Phân cụm ma trận phân biệt kết quả bằng các phương thức như phân cụm theo phân cấp hoặc DBSCAN có thể hoạt động với các hàm khoảng cách tùy ý.


bạn có thể giải thích tại sao khoảng cách cong vênh thời gian động không phải là một lựa chọn tốt cho phân cụm chuỗi thời gian không?
Hardik Gupta

Đó không phải là một tuyên bố chung. Nó có tốt hay không phụ thuộc vào việc bạn có muốn cho phép thời gian cong vênh hay không.
Anony-Mousse

7

Bạn có thể muốn xem chuỗi thời gian Dự báo hàng giờ với định kỳ hàng ngày, hàng tuần và hàng nămcho một cuộc thảo luận về dữ liệu hàng giờ liên quan đến dữ liệu hàng ngày và ngày lễ / hồi quy. Bạn có 5 năm dữ liệu trong khi các cuộc thảo luận khác liên quan đến 883 giá trị hàng ngày. Những gì tôi muốn đề xuất là bạn có thể xây dựng một dự báo kết hợp các biến hồi quy hàng giờ như ngày trong tuần; tuần trong năm và ngày lễ sử dụng tổng số hàng ngày như một công cụ dự đoán bổ sung. Theo cách này, bạn sẽ có 24 mô hình cho mỗi trong số 3.000 công ty. Bây giờ những gì bạn muốn làm là theo giờ, hãy ước tính 3.000 mô hình bằng cách sử dụng cấu trúc ARIMAX phổ biến cho mô hình phản hồi xung quanh từng biến hồi quy, ngày trong tuần, thay đổi trong ngày trong tuần các thông số và các chỉ số hàng tuần trong khi cô lập các ngoại lệ. Sau đó, bạn có thể ước tính các tham số trên toàn cầu bằng cách sử dụng tất cả 3000 công ty. Thực hiện bài kiểm tra Chow http://en.wikipedia.org/wiki/Chow_testđể xác định các tham số và khi từ chối cụm các công ty thành các nhóm đồng nhất. Tôi đã đề cập đến điều này như là phân tích cụm đơn chiều. Vì SPSS có các khả năng rất hạn chế trong chuỗi thời gian, bạn có thể muốn tìm kiếm phần mềm khác.


1
"vanilla" dường như là một từ kỳ quặc để sử dụng về R; không rõ ràng về bản dịch trong thuật ngữ R thông thường hơn. Bất kỳ sự khác biệt nào giữa cơ sở R và các gói đóng góp thêm từ CRAN thực sự không cắn người dùng có kinh nghiệm, hoặc thậm chí là người mới, vì chúng đều miễn phí và có thể truy cập như nhau. Ấn tượng của tôi là ai đó có quyền truy cập vào SPSS có thể nói khá dễ dàng rằng hiện tại có điều gì đó không thể có trong SPSS mà không cần lập trình; để nói tương tự về R đòi hỏi phải làm quen với tất cả các gói chuỗi thời gian.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.