Tôi biết đây chủ yếu là một trang web thống kê, vì vậy nếu tôi lạc đề, vui lòng chuyển hướng cho tôi.
Tôi có một hệ thống với các máy bơm đôi khi bị hỏng và cần phải được thay thế. Tôi muốn có thể dự đoán những thất bại, và do đó đưa ra cảnh báo sớm cho những người thay thế máy bơm. Tôi có dữ liệu lịch sử cho quá trình bơm, chẳng hạn như lưu lượng, áp suất, chiều cao chất lỏng, v.v.
Tôi chỉ có một ít kinh nghiệm trong việc sử dụng các kỹ thuật học máy để phân loại dữ liệu - về cơ bản tôi đã theo dõi và thực hiện các bài tập về khóa học máy của Andrew Ng trên coursera, cũng như Statistics One của Andrew Conway - và tôi chưa bao giờ sử dụng học máy để phân loại chuỗi thời gian. Tôi đang nghĩ về những cách tôi có thể chuyển đổi vấn đề của mình để tôi có thể sử dụng kiến thức hiện có của mình về nó. Với kiến thức hạn hẹp của mình, tôi sẽ không có được một dự đoán rất tối ưu, nhưng tôi hy vọng sẽ học được từ điều này, và đối với vấn đề này, bất kỳ cải thiện nhỏ nào trong dự đoán đều hữu ích, thay vì chỉ chờ lỗi xảy ra.
Phương pháp đề xuất của tôi là biến chuỗi thời gian thành một vấn đề phân loại bình thường. Đầu vào sẽ là một bản tóm tắt của một cửa sổ chuỗi thời gian, với giá trị trung bình, độ lệch chuẩn, giá trị tối đa, v.v. cho từng loại dữ liệu trong cửa sổ. Đối với đầu ra, tôi không chắc chắn những gì sẽ làm việc tốt nhất. Một cách tiếp cận là đầu ra sẽ là một phân loại nhị phân cho dù máy bơm có bị hỏng trong một khoảng thời gian nhất định từ cuối cửa sổ hay không. Một điều nữa là đầu ra sẽ là thời gian còn lại trước khi bơm bị hỏng, do đó không phải là phân loại mà là hồi quy (theo nghĩa học máy).
Bạn có nghĩ rằng phương pháp này có khả năng mang lại kết quả? Có phải đó là một câu hỏi "phụ thuộc vào tên miền và dữ liệu lịch sử". Có các biến đổi tốt hơn (của cả đầu vào và đầu ra) mà tôi chưa xem xét hay là dự đoán lỗi dựa trên dữ liệu chuỗi thời gian khác với dự đoán lỗi tiêu chuẩn hơn, rằng thời gian của tôi sẽ tốt hơn khi đọc về máy học với chuỗi thời gian ?