Áp dụng sóng con cho thuật toán phát hiện dị thường dựa trên chuỗi thời gian


25

Tôi đã bắt đầu thực hiện theo cách của mình thông qua Hướng dẫn khai thác dữ liệu thống kê của Andrew Moore (rất khuyến khích cho bất kỳ ai khác lần đầu tiên mạo hiểm trong lĩnh vực này). Tôi bắt đầu bằng cách đọc bản PDF cực kỳ thú vị này có tên "Tổng quan giới thiệu về các thuật toán phát hiện dị thường dựa trên chuỗi thời gian" trong đó Moore theo dõi qua nhiều kỹ thuật được sử dụng trong việc tạo ra một thuật toán để phát hiện dịch bệnh. Nửa chừng các slide, trên trang 27, anh liệt kê một số "phương pháp hiện đại" khác được sử dụng để phát hiện ổ dịch. Cái đầu tiên được liệt kê là wavelet . Wikipeida mô tả một wavelet là

một dao động giống như sóng với biên độ bắt đầu từ 0, tăng và sau đó giảm về 0. Nó thường có thể được hình dung như là một "dao động ngắn"

nhưng không mô tả ứng dụng của họ để thống kê và các tìm kiếm Google của tôi mang lại những bài báo mang tính học thuật cao, cho rằng kiến ​​thức về cách các sóng con liên quan đến thống kê hoặc sách đầy đủ về chủ đề này.

Tôi muốn có một sự hiểu biết cơ bản về cách các wavelet được áp dụng để phát hiện dị thường chuỗi thời gian, giống như cách Moore minh họa các kỹ thuật khác trong hướng dẫn của mình. Ai đó có thể cung cấp một lời giải thích về cách các phương pháp phát hiện sử dụng wavelet hoạt động hoặc một liên kết đến một bài viết dễ hiểu về vấn đề này?

Câu trả lời:


19

Wavelets rất hữu ích để phát hiện các điểm kỳ dị trong một tín hiệu (ví dụ xem bài báo ở đây (xem hình 3 để minh họa) và các tài liệu tham khảo được đề cập trong bài báo này. Tôi đoán rằng điểm kỳ dị đôi khi có thể là một sự bất thường?

Ý tưởng ở đây là biến đổi wavelet liên tục (CWT) có các đường cực đại lan truyền dọc theo tần số, tức là đường càng dài thì điểm kỳ dị càng cao. Xem hình 3 trong bài báo để xem ý tôi là gì! lưu ý rằng có mã Matlab miễn phí liên quan đến giấy đó, nó nên ở đây .


Ngoài ra, tôi có thể cung cấp cho bạn một số phương pháp phỏng đoán chi tiết lý do tại sao phép biến đổi (ví dụ trước là về biến đổi sóng con liên tục) ( DWT ) rất thú vị đối với một nhà thống kê (xin lỗi không cạn kiệt):

  • Có một lớp rộng các tín hiệu (thực tế (không gian Besov)) được chuyển thành một chuỗi thưa thớt bằng phép biến đổi wavelet. (thuộc tính nén )
  • Một lớp rộng các quy trình (gần như đứng yên) được chuyển thành một chuỗi với các tính năng gần như không tương thích (thuộc tính giải mã )
  • Các hệ số của Wavelet chứa thông tin được định vị theo thời gian và tần suất (ở các tỷ lệ khác nhau). (tài sản đa quy mô)
  • Các hệ số Wavelet của tín hiệu tập trung vào các điểm kỳ dị của nó .

19

Danh sách trong bản trình bày mà bạn tham khảo có vẻ khá độc đoán với tôi và kỹ thuật sẽ được sử dụng sẽ thực sự phụ thuộc vào vấn đề cụ thể. Tuy nhiên, bạn sẽ lưu ý rằng nó cũng bao gồm các bộ lọc Kalman , vì vậy tôi nghi ngờ rằng việc sử dụng dự định là một kỹ thuật lọc. Biến đổi Wavelet thường thuộc chủ đề xử lý tín hiệu và thường sẽ được sử dụng làm bước xử lý trước với dữ liệu rất ồn. Một ví dụ là bài báo " Phát hiện dị thường đa quy mô " của Chen và Zhan (xem bên dưới). Cách tiếp cận sẽ là chạy một phân tích trên phổ khác nhau chứ không phải trên loạt nhiễu ban đầu.

Wavelets thường được so sánh với một biến đổi phạm vi thời gian liên tục, mặc dù chúng có lợi ích là được bản địa hóa cả về thời gian và tần suất. Wavelets có thể được sử dụng cả để nén tín hiệu và cũng để làm mịn (co rút sóng con). Cuối cùng, có thể có ý nghĩa khi áp dụng một thống kê thêm sau khi biến đổi wavelet đã được áp dụng (ví dụ bằng cách xem xét hàm tương quan tự động). Một khía cạnh nữa của các sóng con có thể hữu ích cho việc phát hiện dị thường là hiệu ứng nội địa hóa: cụ thể là sự gián đoạn sẽ chỉ ảnh hưởng đến sóng con ở gần nó (không giống như biến đổi Fourier). Một ứng dụng của việc này là tìm chuỗi thời gian đứng yên cục bộ (sử dụng LSW).

Guy Nason có một cuốn sách hay mà tôi muốn giới thiệu nếu bạn muốn tìm hiểu sâu hơn về ứng dụng thống kê thực tế: " Phương pháp Wavelet trong Thống kê với R ". Điều này đặc biệt nhắm mục tiêu ứng dụng wavelet vào phân tích thống kê và ông cung cấp nhiều ví dụ trong thế giới thực cùng với tất cả các mã (sử dụng gói wavethresh ). Cuốn sách của Nason không đề cập cụ thể đến "phát hiện bất thường", mặc dù nó thực hiện một công việc đô đốc là cung cấp một cái nhìn tổng quan chung.

Cuối cùng, bài viết trên wikipedia cung cấp nhiều tài liệu tham khảo giới thiệu tốt, vì vậy nó đáng để xem qua nó một cách chi tiết.

[Một lưu ý phụ: nếu bạn đang tìm kiếm một kỹ thuật hiện đại tốt để phát hiện điểm thay đổi, tôi khuyên bạn nên thử HMM trước khi dành quá nhiều thời gian cho các phương pháp sóng con, trừ khi bạn có lý do chính đáng để sử dụng sóng con trong trường cụ thể của mình. Điều này dựa trên kinh nghiệm cá nhân của tôi. Tất nhiên có nhiều mô hình phi tuyến khác có thể được xem xét, vì vậy nó thực sự phụ thuộc vào vấn đề cụ thể của bạn.]


1
Tôi không rõ mô hình Hidden Markov được sử dụng để phát hiện sự bất thường nhưng tôi rất muốn biết. Phần đặc biệt không rõ ràng với tôi là làm thế nào để tạo ra một máy trạng thái cơ bản chính xác với xác suất chuyển tiếp có ý nghĩa (trừ khi đó chỉ là hai trạng thái như "dị thường" và "không dị thường" với xác suất chuyển tiếp ngây thơ giữa chúng).
John Robertson

6

Các hàm cơ sở sóng con rời rạc thường được sử dụng và triển khai (khác với CWT được mô tả trong câu trả lời của Robin) có hai thuộc tính đẹp giúp chúng hữu ích trong việc phát hiện dị thường:

  1. Chúng được hỗ trợ nhỏ gọn.
  2. Chúng hoạt động như các bộ lọc thông dải với băng thông được xác định bởi hỗ trợ của chúng.

Điều này có nghĩa trong điều kiện thực tế là sự phân tách sóng con rời rạc của bạn xem xét các thay đổi cục bộ trong tín hiệu qua nhiều thang đo và dải tần số khác nhau. Nếu bạn có (ví dụ) tiếng ồn tần số cao, cường độ lớn được chồng lên trên một chức năng hiển thị sự thay đổi cường độ thấp trong một khoảng thời gian dài hơn, biến đổi wavelet sẽ phân tách hai thang đo này một cách hiệu quả và cho phép bạn thấy sự thay đổi đường cơ sở khác kỹ thuật sẽ bỏ lỡ; một sự thay đổi trong đường cơ sở này có thể gợi ý sự bùng phát bệnh hoặc một số thay đổi quan tâm khác. Theo nhiều cách, bạn có thể coi quá trình phân hủy là mượt mà hơn (và đã có khá nhiều công việc được thực hiện đối với sự co ngót hiệu quả đối với các hệ số sóng con trong ước lượng không đối xứng, xem ví dụ khá nhiều về sóng con của Donoho). Không giống như các phương pháp dựa trên tần số thuần túy, hỗ trợ nhỏ gọn có nghĩa là họ có khả năng xử lý dữ liệu không cố định. Không giống như các phương pháp hoàn toàn dựa trên thời gian, chúng cho phép lọc một số tần số.

Trong điều kiện thực tế, để phát hiện sự bất thường hoặc thay đổi điểm, bạn sẽ áp dụng một biến đổi wavelet rời rạc (có thể là biến thể được gọi là "DWT chồng chéo tối đa" hoặc "DWT bất biến thay đổi", tùy thuộc vào người bạn đọc) và xem ở các bộ hệ số tần số thấp hơn để xem bạn có những thay đổi đáng kể trong đường cơ sở hay không. Điều này sẽ cho bạn thấy khi một sự thay đổi dài hạn đang xảy ra bên dưới bất kỳ tiếng ồn hàng ngày. Percival và Walden (xem tài liệu tham khảo bên dưới) rút ra một vài thử nghiệm cho các hệ số có ý nghĩa thống kê mà bạn có thể sử dụng để xem liệu một sự thay đổi như thế này có ý nghĩa hay không.

Một công việc tham khảo tuyệt vời cho các sóng nhỏ rời rạc là Percival và Walden, "Phương pháp Wavelet để phân tích chuỗi thời gian". Một tác phẩm giới thiệu hay là "Giới thiệu về wavelet và biến đổi wavelet, primer" của Burrus, Gopinath và Guo. Nếu bạn đến từ một nền tảng kỹ thuật, thì "Các yếu tố của sóng nhỏ cho các kỹ sư và nhà khoa học" là một giới thiệu tốt từ quan điểm xử lý tín hiệu.

(Được chỉnh sửa để bao gồm ý kiến ​​của Robin)


Điểm đầu tiên bạn đề cập là sai nói chung Tôi đề nghị bạn nên đọc câu đầu tiên của chương sách.google.fr/iêu trong cuốn sách của Daubechie. Ngoài ra, nếu bạn đã đọc câu trả lời của tôi, tôi đã đề cập đến tài sản tốt đẹp của DWT trong phần 2 của câu trả lời của tôi ...
robin girard

Đến điểm đầu tiên, bạn đã đúng. Tôi nên nói "Các hàm cơ sở sóng con rời rạc được sử dụng / thực hiện phổ biến nhất"; Tôi sẽ chỉnh sửa để phản ánh điều đó. Đến điểm thứ hai, bạn đã đưa ra một câu trả lời tốt về cách một số CWT (thường là sóng con DOG hoặc sóng con Ricker có liên quan; ví dụ như sóng con Gabor sẽ không cung cấp hành vi mà bạn mô tả) có thể phát hiện ra sự bất thường của loại dị thường. Tôi đã cố gắng đưa ra một mô tả tương tự về cách DWT có thể được sử dụng để phát hiện các loại dị thường khác.
Giàu

Điểm thứ hai mà bạn đề cập cũng có khả năng là sai: hỗ trợ wavelet (nếu nhỏ gọn) là cung cấp thông tin về nội địa hóa tạm thời của wavelet chứ không phải định vị tần số.
robin girard

Các sóng nhỏ rời rạc - hoặc ít nhất là phần lớn các sóng được triển khai và sử dụng phổ biến - thường được thiết kế để có các thuộc tính dựa trên tần số hữu ích trong ràng buộc hỗ trợ nhỏ gọn. Chẳng hạn, điều kiện thời điểm biến mất của Daubechies, ít nhiều tương đương với độ phẳng trong dải thông. Các đặc tính định vị tần số của sóng con thường là yếu tố dẫn đến các hệ số trở thành biểu diễn thưa thớt và cho phép ước tính phương sai tạp âm theo giả định "tín hiệu + tạp âm trung bình cộng".
Giàu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.