Kỹ thuật khai thác tính năng - Tóm tắt chuỗi dữ liệu


11

Tôi thường xây dựng một mô hình (phân loại hoặc hồi quy) trong đó tôi có một số biến dự đoán là các chuỗi và tôi đã cố gắng tìm các đề xuất kỹ thuật để tóm tắt chúng theo cách tốt nhất có thể để đưa vào làm dự đoán trong mô hình.

Ví dụ cụ thể, giả sử một mô hình đang được xây dựng để dự đoán liệu khách hàng sẽ rời công ty trong 90 ngày tới (bất kỳ lúc nào giữa t và t + 90; do đó, kết quả nhị phân). Một trong những yếu tố dự đoán khả dụng là mức cân đối tài chính của khách hàng trong khoảng thời gian từ t_0 đến t-1. Có thể điều này đại diện cho các quan sát hàng tháng trong 12 tháng trước (tức là 12 phép đo).

Tôi đang tìm cách để xây dựng các tính năng từ loạt bài này. Tôi sử dụng các mô tả của từng chuỗi khách hàng như giá trị trung bình, cao, thấp, tiêu chuẩn, phù hợp với hồi quy OLS để có được xu hướng. Là các phương pháp tính toán khác của họ? Các biện pháp thay đổi hay biến động khác?

THÊM VÀO:

Như đã đề cập trong phản hồi bên dưới, tôi cũng đã xem xét (nhưng quên thêm ở đây) bằng cách sử dụng Độ cong thời gian động (DTW) và sau đó phân cụm theo ma trận khoảng cách kết quả - tạo một số cụm và sau đó sử dụng thành viên cụm làm tính năng. Ghi điểm dữ liệu thử nghiệm có thể sẽ phải tuân theo một quy trình trong đó DTW được thực hiện trên các trường hợp mới và các tâm khối cụm - khớp chuỗi dữ liệu mới với các trọng tâm gần nhất của chúng ...

Câu trả lời:


7

sẽ thích nhìn thấy một hộp được viết trong đó thu thập các nghiên cứu điển hình về kỹ thuật tính năng / trích xuất

Xin vui lòng tư vấn nếu điều này giúp

  1. Phân biệt dữ liệu chuỗi thời gian http://arxiv.org/ftp/q-bio/ con / 0/0 / 050502828df

  2. Tối ưu hóa phân loại chuỗi thời gian để khám phá kiến ​​thức https://www.uni-marburg.de/fb12/datenbionik/pdf/pub/2005/moerchen05optimizing

  3. Trải nghiệm SAX: một đại diện biểu tượng của tiểu thuyết thời gian http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Lập chỉ mục cho Khám phá tương tác của Chuỗi dữ liệu lớn http://acs.ict.ac.cn/st Storage / slides / Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Khai thác tính năng tổng quát để nhận dạng mô hình cấu trúc trong dữ liệu chuỗi thời gian http://www.semanticscholar.org/apers/Generalized-Feature-Extraction-for-Sturationural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d76

  6. Tính toán và trực quan hóa sự sắp xếp cong vênh thời gian động trong R: Gói dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

Những gì bạn đang cố gắng làm ở đây là giảm tính chiều của các tính năng của bạn. Bạn có thể tìm kiếm giảm kích thước để có được một số tùy chọn, nhưng một kỹ thuật rất phổ biến là phân tích thành phần chính (PCA). Các thành phần chính không thể hiểu được như các tùy chọn bạn đã đề cập, nhưng chúng làm rất tốt việc tóm tắt tất cả các thông tin.


Mối quan tâm của tôi với câu trả lời này là PCA không nhận ra sự phụ thuộc rõ ràng giữa chuỗi t và t + 1.
B_Miner

Nếu sự phụ thuộc t và t + 1 là một xu hướng hoặc tính thời vụ - hãy xem xét trích xuất nó và xử lý phần còn lại như với các biến độc lập.
Diego

2

Khai thác tính năng luôn là một thách thức và là chủ đề ít được đề cập trong văn học, vì nó phụ thuộc vào ứng dụng rộng rãi.

Một số ý tưởng bạn có thể thử:

  • Dữ liệu thô, được đo từng ngày. Điều đó là hiển nhiên với một số hàm ý và tiền xử lý bổ sung (chuẩn hóa) để làm cho các mốc thời gian có độ dài khác nhau có thể so sánh được.
  • Những khoảnh khắc cao hơn: xiên, kurtosis, vv
  • Derivative (s): tốc độ tiến hóa
  • Khoảng thời gian không lớn nhưng có lẽ đáng để thử một số tính năng phân tích chuỗi thời gian như ví dụ tự động tương quan.
  • Một số tính năng tùy chỉnh như ngắt dòng thời gian trong tuần và đo lường số lượng bạn đã đo riêng trong mỗi tuần. Sau đó, một bộ phân loại phi tuyến tính sẽ có thể kết hợp các tính năng của tuần đầu tiên với các tính năng của tuần trước để có cái nhìn sâu sắc về sự tiến hóa kịp thời.

Đề nghị tốt đẹp! Bạn có thể xác thịt sử dụng các dẫn xuất nhiều hơn?
B_Miner

Tôi hoàn toàn đồng ý với tuyên bố đầu tiên của bạn. Tôi rất thích nhìn thấy một hộp được viết trong đó thu thập các nghiên cứu điển hình về kỹ thuật tính năng / trích xuất. Câu ngạn ngữ là việc tạo tính năng quan trọng hơn nhiều so với thuật toán lớn nhất mới nhất trong hiệu suất mô hình dự đoán.
B_Miner

2

Thoạt nhìn, bạn cần trích xuất các tính năng từ chuỗi thời gian của mình (x - 12) - x. Một cách tiếp cận có thể là tính toán các số liệu tóm tắt: trung bình, độ phân tán, v.v. Nhưng làm như vậy, bạn sẽ mất tất cả các thông tin liên quan đến chuỗi thời gian. Nhưng dữ liệu, được trích xuất từ ​​hình dạng đường cong có thể khá hữu ích. Tôi khuyên bạn nên xem xét thông qua này bài viết, nơi tác giả đề xuất các thuật toán cho chuỗi thời gian clustering. Hy vọng, nó sẽ hữu ích. Ngoài ra để phân cụm như vậy, bạn có thể thêm số liệu thống kê tóm tắt vào danh sách tính năng của bạn.


Cảm ơn các liên kết. Tôi cũng đã cân nhắc sử dụng DTW và phân cụm chữ tượng hình. Tôi đã thử nghiệm với gói R cho DWT. jstatsoft.org/v31/i07/apers
B_Miner

1
Tôi đã xem xét cụ thể việc tạo n cụm và sử dụng thành viên phân cụm làm một tính năng.
B_Miner
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.