Làm cách nào tôi có thể chuyển đổi dữ liệu chuỗi thời gian để tôi có thể sử dụng các kỹ thuật đơn giản hơn để dự đoán lỗi?


8

Tôi biết đây chủ yếu là một trang web thống kê, vì vậy nếu tôi lạc đề, vui lòng chuyển hướng cho tôi.

Tôi có một hệ thống với các máy bơm đôi khi bị hỏng và cần phải được thay thế. Tôi muốn có thể dự đoán những thất bại, và do đó đưa ra cảnh báo sớm cho những người thay thế máy bơm. Tôi có dữ liệu lịch sử cho quá trình bơm, chẳng hạn như lưu lượng, áp suất, chiều cao chất lỏng, v.v.

Tôi chỉ có một ít kinh nghiệm trong việc sử dụng các kỹ thuật học máy để phân loại dữ liệu - về cơ bản tôi đã theo dõi và thực hiện các bài tập về khóa học máy của Andrew Ng trên coursera, cũng như Statistics One của Andrew Conway - và tôi chưa bao giờ sử dụng học máy để phân loại chuỗi thời gian. Tôi đang nghĩ về những cách tôi có thể chuyển đổi vấn đề của mình để tôi có thể sử dụng kiến ​​thức hiện có của mình về nó. Với kiến ​​thức hạn hẹp của mình, tôi sẽ không có được một dự đoán rất tối ưu, nhưng tôi hy vọng sẽ học được từ điều này, và đối với vấn đề này, bất kỳ cải thiện nhỏ nào trong dự đoán đều hữu ích, thay vì chỉ chờ lỗi xảy ra.

Phương pháp đề xuất của tôi là biến chuỗi thời gian thành một vấn đề phân loại bình thường. Đầu vào sẽ là một bản tóm tắt của một cửa sổ chuỗi thời gian, với giá trị trung bình, độ lệch chuẩn, giá trị tối đa, v.v. cho từng loại dữ liệu trong cửa sổ. Đối với đầu ra, tôi không chắc chắn những gì sẽ làm việc tốt nhất. Một cách tiếp cận là đầu ra sẽ là một phân loại nhị phân cho dù máy bơm có bị hỏng trong một khoảng thời gian nhất định từ cuối cửa sổ hay không. Một điều nữa là đầu ra sẽ là thời gian còn lại trước khi bơm bị hỏng, do đó không phải là phân loại mà là hồi quy (theo nghĩa học máy).

Bạn có nghĩ rằng phương pháp này có khả năng mang lại kết quả? Có phải đó là một câu hỏi "phụ thuộc vào tên miền và dữ liệu lịch sử". Có các biến đổi tốt hơn (của cả đầu vào và đầu ra) mà tôi chưa xem xét hay là dự đoán lỗi dựa trên dữ liệu chuỗi thời gian khác với dự đoán lỗi tiêu chuẩn hơn, rằng thời gian của tôi sẽ tốt hơn khi đọc về máy học với chuỗi thời gian ?


Đo độ rung / tiếng ồn thời gian thực của máy bơm sẽ là một phần thưởng thực sự ở đây.
image_doctor

@image_doctor: Tôi có thể có được điều đó. Bạn có nghĩa là nó sẽ tốt, bởi vì độ rung / tiếng ồn có liên quan đến miền vấn đề? Trong trường hợp đó, tôi không thể tóm tắt nó như các dữ liệu khác? Hay đó là về việc xử lý thông tin trong thời gian thực? Tôi muốn có thể dự đoán trước các lỗi, như một ngày hoặc (tốt nhất là) nhiều hơn. Tôi không biết liệu nó có khả thi với tên miền và dữ liệu hay không. Nhưng khoảng thời gian này không gợi ý cho tôi, việc xử lý thời gian thực sự có ích. Nếu bạn có nghĩa là thời gian thực là đáng kể, tôi đã hiểu nhầm điều gì?
Boris

Nó có liên quan đến lĩnh vực vấn đề. Máy bơm thường có dấu hiệu mất cân bằng hoặc thay đổi chế độ rung trước khi hỏng. Phân tích quang phổ thời gian thực, hoặc ít nhất là một cái gì đó giống như các mẫu hàng giờ, sẽ là một tính năng rất hữu ích để dự đoán thất bại.
image_doctor

Tôi có một vấn đề tương tự và tôi hiện đang đánh giá tiềm năng của việc sử dụng Mô hình Nguy hiểm theo tỷ lệ Cox. Bạn có thể sử dụng điều này trong giải pháp của bạn? Bạn có thể vui lòng chia sẻ với chúng tôi giải pháp cuối cùng bạn đã thực hiện để đạt được kết quả không?

Câu trả lời:


5

Bạn có thể muốn xem xét phân tích sinh tồn, trong đó bạn có thể ước tính chức năng sống sót (xác suất thời gian thất bại lớn hơn thời gian cụ thể) và chức năng nguy hiểm (xác suất tức thời mà một đơn vị sẽ thất bại, vì nó không trải qua thất bại cho đến nay). Với hầu hết các phương pháp phân tích sinh tồn, bạn có thể nhập các yếu tố dự đoán bất biến theo thời gian và thay đổi theo thời gian.

Có nhiều cách tiếp cận phân tích sinh tồn khác nhau bao gồm mô hình rủi ro tỷ lệ bán tham số Cox (hay còn gọi là hồi quy Cox) và mô hình tham số. Hồi quy Cox không yêu cầu bạn chỉ định chức năng nguy hiểm cơ bản nhưng bạn có thể thấy rằng bạn cần một mô hình tham số để nắm bắt chính xác các mẫu thất bại trong dữ liệu của mình. Đôi khi các mô hình thời gian thất bại tăng tốc tham số là phù hợp, trong đó tỷ lệ thất bại tăng theo thời gian.

Bạn có thể thử bắt đầu với hồi quy Cox vì đây là cách đơn giản nhất để sử dụng và kiểm tra mức độ bạn có thể dự đoán thất bại trên bộ kiểm tra giữ. Tôi nghi ngờ bạn có thể có kết quả tốt hơn với một số phân tích sinh tồn rõ ràng có tính đến thời gian và kiểm duyệt (máy bơm chưa thất bại) so với việc cố gắng biến vấn đề này thành vấn đề phân loại không dựa trên thời gian.


Tôi có một vấn đề tương tự và tôi cũng đang cố gắng định khung trong khung phân tích sinh tồn: về cơ bản tôi có cùng một nhà máy luôn bị hỏng và hoạt động trở lại sau khi bảo trì. Tôi muốn xác định khi nào và nếu nhà máy sẽ thất bại. Trong trường hợp đó, làm thế nào để kết hợp nhiều phép đo trong mỗi khoảng thời gian vì phân tích tỷ lệ sống sẽ có một hàng cho mỗi lần thất bại nhưng tôi sẽ thu thập dữ liệu trong nhiều giờ trước khi thất bại.
discipulus

1

Tôi dựa trên quyết định phân loại so với hồi quy dựa trên tính khả dụng của dữ liệu (cái sau đòi hỏi phải biết chính xác thời gian xảy ra lỗi, cái trước không) và liệu ước tính thời gian xảy ra lỗi có thực sự là một yêu cầu đối với vấn đề của bạn (mặc định của tôi sẽ là thử phân loại đầu tiên).


Cảm ơn. Có, theo một cách nào đó, việc ước tính thời gian để thất bại đang dẫn đến kết quả dài hơn, nhưng nó giúp tiết kiệm vấn đề quyết định khoảng thời gian thất bại nào để ước tính: Tôi không biết liệu dữ liệu có hỗ trợ phân loại thời gian thất bại 10 ngày tốt hơn không hơn thời gian 5 ngày, vì vậy với việc phân loại, tôi phải đào tạo nhiều người phân loại và sau đó đánh đổi để đưa ra kết quả tốt nhất so với đưa ra cảnh báo kịp thời. Ước tính thời gian để thất bại sẽ vượt qua điều đó, nhưng bản thân việc ước tính có thể khó hơn.
Boris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.