Học máy: Xác định các mẫu trong dữ liệu chuỗi thời gian


8

Tôi làm việc trong năng lượng tái tạo. Công ty tôi tập hợp rất nhiều dữ liệu từ thiết bị. Điều này thường bao gồm dữ liệu quá trình (như nhiệt độ máy biến áp, điện áp đường dây, dòng điện, v.v.) và các báo động riêng biệt (ví dụ ngắt ngắt, giá trị cảnh báo biến tần, báo động biến áp qua nhiệt độ). Đây là một ví dụ sơ bộ về dữ liệu của chúng tôi trông như thế nào (được đọc là các dòng của csv):

  • dấu thời gian, thẻ, giá trị
  • 25/05/2016 14:30:01, INVERTER_1.VOLTAGE_DC, 249.5
  • 25/05/2016 14:30:06, INVERTER_1.VOLTAGE_DC, 250.1
  • 25/05/2016 14:45:02, TRANSFORMER_1.TEMP_ALARM, 0
  • 25/05/2016 14:45:15, TRANSFORMER_1.TEMP_ALARM, 1

Tôi muốn bắt đầu thực hiện một số phân tích mẫu trên dữ liệu này khi nghỉ ngơi, không phải thời gian thực (ít nhất là bây giờ). Tôi tin rằng những gì tôi muốn thử là học tính năng không giám sát, nhưng tôi không hoàn toàn chắc chắn. Sẽ rất tốt (tôi nghĩ) khi áp dụng học máy vào 1) xác định bất kỳ mẫu nào không rõ ràng và 2) cho phép thuật toán xác định chữ ký của các mẫu trong dữ liệu (ví dụ: tất cả các bộ biến tần trên một bộ nạp đơn đều mất liên lạc khi bộ ngắt đang mở).

Câu hỏi ban đầu của tôi: Đây có được coi là dữ liệu chuỗi thời gian không? Trong nghiên cứu của tôi cho đến nay, dường như dữ liệu chuỗi thời gian đang tham chiếu dữ liệu là một chức năng của thời gian. Đối với hầu hết dữ liệu của tôi, với tư cách là một chuyên gia về miền, tôi không tin rằng việc xác định các hàm cho dữ liệu của mình là hữu ích cho phân tích này. Ngoài ra, trong nghiên cứu của tôi, dường như dữ liệu chuỗi thời gian đề cập đến các giá trị thực và không rời rạc.

Bất kỳ ý kiến ​​hoặc tài liệu tham khảo có liên quan sẽ hữu ích.


3
Tôi nghĩ rằng "nhận dạng bất kỳ mẫu nào" là quá chung chung. Vậy một mô hình thú vị là gì? Bạn có ví dụ nào cho trường hợp cụ thể này không?
tái hợp

1
Tôi chủ yếu quan tâm đến việc ngừng hoạt động của thiết bị và thời gian hoạt động của thiết bị. Đây có lẽ sẽ là một trọng tâm ban đầu tốt. Vì vậy, giả sử, ví dụ, chúng ta đang thấy sự cố mất liên lạc với bộ biến tần của mình sau ~ 25 ngày chạy. Đây là một ví dụ thực tế từ một dự án trong quá khứ, nơi mô-đun truyền thông biến tần bị rò rỉ bộ nhớ sẽ khiến nó ngừng liên lạc. Điều này sẽ không rõ ràng lắm, nhưng thật tuyệt khi thấy mối tương quan giữa giá trị dữ liệu thời gian hoạt động của biến tần và sự cố ngừng truyền thông (dữ liệu biến tần NaN trong một khoảng thời gian dài).
theoneandonly2

1
Điều có thể đơn giản hơn là tập trung vào việc xác định và nhóm các mẫu từ dữ liệu trong quá khứ. Ví dụ của tôi ở trên: bộ biến tần trên bộ nạp bị mất liên lạc khi bộ ngắt được mở. Một ví dụ khác: chúng ta mất dữ liệu khí tượng cùng lúc với khi chúng ta mất liên lạc biến tần (điều này là do trạm khí tượng được cấp nguồn từ vỏ biến tần). Trong cả hai ví dụ ở đây, mất liên lạc dẫn đến khoảng cách về dữ liệu thay vì giá trị dữ liệu cụ thể. Đặc điểm này là những gì tôi đang đấu tranh với hầu hết. Tôi không thấy nhiều nghiên cứu để phân tích và phân loại thiếu dữ liệu.
theoneandonly2

Câu trả lời:


3

Có, dữ liệu của bạn là " dữ liệu chuỗi thời gian ", vì đó là chuỗi các phép đo của cùng một biến được thu thập theo thời gian. Dữ liệu chuỗi thời gian có thể được thu thập liên tục hoặc theo các khoảng thời gian riêng biệt.

Dữ liệu mẫu của bạn có thể được biểu thị dưới dạng hàm của thời gian - có thể nó giúp nghĩ về "hàm" là quá trình tạo ra đầu ra đo, đầu vào của hàm là dấu ngày / thời gian và đầu ra là giá trị của tham số đó tại thời điểm đó:

INVERTER_1.VOLTAGE_DC(5/25/2016 14:30:01)=249.5

Bạn không nhất thiết phải xác định (các) hàm (chung) tạo ra dữ liệu của mình để thực hiện phân tích chuỗi thời gian - đủ để biết giá trị của hàm tại thời điểm đo của bạn. Phạm vi của dữ liệu chuỗi thời gian có thể liên tục & có giá trị thực, rời rạc hoặc thậm chí không phải là số.

Chắc chắn có thể sử dụng các kỹ thuật học máy trên dữ liệu chuỗi thời gian, ví dụ như để dự báo , phát hiện bất thường hoặc nhận dạng mẫu .

Mạng lưới thần kinh có thể là một lựa chọn tốt nếu bạn quan tâm đến mô hình dự đoán. Một thiết lập có thể là sử dụng các phép đo tham số hiện tại làm đầu vào cho mạng nơ ron và đầu ra là giá trị dự đoán trong tương lai hoặc "trạng thái của hệ thống" (ví dụ: liệu bộ ngắt có mở hay không).

WEKA là một bộ công cụ học máy nguồn mở tốt có chứa các triển khai của nhiều thuật toán ML khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.