Phân loại chuỗi thời gian đa biến


9

Tôi có một bộ dữ liệu gồm chuỗi thời gian (8 điểm) với khoảng 40 thứ nguyên (vì vậy mỗi chuỗi thời gian là 8 x 40). Các tham số tương ứng (kết quả có thể có cho các danh mục) là eitheir 0 hoặc 1.

Điều gì sẽ là cách tiếp cận tốt nhất để thiết kế một bộ phân loại cho chuỗi thời gian với nhiều chiều?

Chiến lược ban đầu của tôi là trích xuất các tính năng từ các chuỗi thời gian đó: trung bình, tiêu chuẩn, biến thể tối đa cho mỗi thứ nguyên. Tôi đã nhận được một tập dữ liệu mà tôi đã sử dụng để huấn luyện RandomTreeForest. Nhận thức được sự ngây thơ hoàn toàn của việc này, và sau khi thu được kết quả kém, giờ tôi đang tìm kiếm một mô hình cải tiến hơn.

Khách hàng tiềm năng của tôi là như sau: phân loại chuỗi cho từng thứ nguyên (sử dụng thuật toán KNN và DWT), giảm kích thước với PCA và sử dụng trình phân loại cuối cùng dọc theo các loại đa chiều. Là người tương đối mới với ML, tôi không biết liệu mình có hoàn toàn sai không.


Những gì bạn đang làm là một cách tiếp cận khá tốt. Bạn có bao nhiêu mẫu trong tập dữ liệu của bạn?
Kasra Manshaei

Tôi có khoảng 500 000 chuỗi thời gian (nhớ lại rằng mỗi chuỗi thời gian là 8 dấu thời gian * 40 kích thước)
AugBar

Bạn đã thử chỉ sử dụng 320 tính năng thô? 320 tính năng không phải là nhiều cho 500.000 mẫu
Jan van der Vegt

@Jan van der Vegt: Tôi đã thử phương pháp đó bằng cách sử dụng mạng thần kinh, nhưng kết quả không thuyết phục - tôi đã sử dụng dữ liệu thô mà không cần xử lý trước. Những thao tác nào tôi nên áp dụng trước trên nguyên liệu 320 tính năng của mình để cung cấp cho trình phân loại?
AugBar

1
Trong trường hợp mạng thần kinh bình thường hóa đầu vào của bạn là quan trọng, tùy thuộc vào phạm vi các tính năng của bạn có thể quan trọng. Nhưng tôi sẽ chỉ cung cấp các tính năng thô vào RF và xem nó hoạt động tốt như thế nào, yêu cầu điều chỉnh ít hơn để xem liệu bạn có thể lấy bất cứ thứ gì ra khỏi nó dễ dàng không
Jan van der Vegt

Câu trả lời:


5

Bạn đang đi đúng hướng. Nhìn vào việc tính toán một vài tính năng, cả về miền thời gian và tần số. Miễn là số lượng mẫu >> số lượng tính năng, bạn không có khả năng phù hợp. Có tài liệu nào về một vấn đề tương tự không? Nếu vậy, điều đó luôn cung cấp một điểm khởi đầu tuyệt vời.

Hãy thử một trình phân loại cây được tăng cường, như xgboost hoặc LightGBM. Chúng có xu hướng dễ dàng điều chỉnh siêu âm hơn và cung cấp kết quả tốt với các tham số mặc định. Cả Random Forest và các trình phân loại cây được tăng cường đều có thể trả về tầm quan trọng của tính năng, vì vậy bạn có thể xem các tính năng nào có liên quan đến vấn đề. Bạn cũng có thể thử xóa các tính năng để kiểm tra bất kỳ hiệp phương sai nào.

Quan trọng nhất là, nếu kết quả của bạn kém bất ngờ, đảm bảo vấn đề của bạn được xác định đúng. Kiểm tra thủ công kết quả của bạn để đảm bảo không có bất kỳ lỗi nào trong đường ống của bạn.



2

Bạn có thể thêm nhiều tính năng vào tập dữ liệu của bạn như dưới đây.

  1. Bạn có thể thử gói nold nếu dữ liệu của bạn là từ một quá trình phi tuyến tính cao.

  2. max, min, mean, skew, kurtosis, và nếu có thể một số chỉ số cán.

Tôi đang làm việc trên một cái gì đó tương tự, và tôi đã hỏi một câu hỏi liên quan .


1

Tôi đồng ý với Jan van der Vegt, tiêu chuẩn hóa (ví dụ: [-1, 1]) hoặc chuẩn hóa N (0, 1) kết hợp với chức năng kích hoạt có thể rất quan trọng với các mạng thần kinh. Tôi sẽ kiểm tra luận án của Pichaid Varoonchotikul: Dự báo lũ lụt bằng cách sử dụng các mạng thần kinh nhân tạo, đề xuất cho các hoạt động của ANN. Nó có những cảnh báo rất thú vị. Dù sao, tôi sử dụng để thử trước mà không có, nhưng khi kết quả không đạt yêu cầu, tôi sử dụng để thực hiện thử nghiệm với cả hai. Không chắc nó sẽ giúp nhưng tôi sẽ kiểm tra gói R TSclust và các tài liệu liên quan. Các tác giả rất tử tế và họ sẽ giúp bạn tìm các mô hình cụ thể để làm như vậy. Họ là những chuyên gia về phân tích chuỗi thời gian! Chúc may mắn!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.