Dự đoán từ chuỗi dữ liệu với các tính năng khác nhau


7

Tôi đang xem xét một vấn đề trong đó các điểm dữ liệu có các tính năng không đồng đều.

Mỗi trường hợp đại diện cho sự tiến triển của một mục trong toàn hệ thống. Một số trong số họ đã tiến đến điểm cuối của họ, những người khác vẫn đang ở giai đoạn trung gian. Số lượng các giai đoạn được biết đến (tổng cộng 10). Tôi có thời gian khi nó bước vào từng giai đoạn. Vấn đề là đưa ra dự đoán khi nào họ sẽ đạt đến giai đoạn cuối cùng.

Có một số cách để xử lý việc này. Có vẻ như một cây quyết định có thể xử lý việc này đúng cách. Ngay cả khi thời gian vào của giai đoạn không được biết đến, nó vẫn có thể đưa ra dự đoán hợp lý từ dữ liệu mà nó có.

Ai đó có thể chỉ cho tôi đi đúng hướng?


Cây quyết định hoạt động hoặc bạn có thể giới thiệu các biến giả boolean để che giấu các tính năng không áp dụng. Chào mừng đến với trang web!
Emre

Câu trả lời:


1

Nếu bạn cần áp đặt từng giá trị bị thiếu, bạn có thể xem xét nhiều phương pháp nội suy hoặc nội suy cho Chuỗi thời gian. ví dụ: /programming/49308530/missing-values-in-time-series-in-python

Nếu mục tiêu chỉ đơn giản là dự đoán thời gian vào Giai đoạn 10 và không lo lắng khi chúng đạt đến giai đoạn trung gian, bạn có thể xử lý là vấn đề hồi quy, tức là chỉ dự đoán thời gian đến Giai đoạn 10. Cách đơn giản nhất có thể là - chỉ cần xử lý như thế này một vấn đề học tập có giám sát bình thường với một số dữ liệu bị thiếu. Bước bổ sung duy nhất là bạn cần tạo ra một số thiếu trong dữ liệu đào tạo / kiểm tra của bạn để phù hợp với dữ liệu bạn sẽ ghi được.

Dữ liệu đào tạo / kiểm tra của bạn sẽ bao gồm tất cả các hồ sơ với dữ liệu đầy đủ cho đến giai đoạn 10.

Sử dụng xác thực chéo hoặc phân chia kiểm tra / đào tạo trong dữ liệu này để tạo mô hình dự đoán để dự đoán thời gian đến Stg10. Trong dữ liệu này, ngẫu nhiên xóa dữ liệu giữa Stg1 và Stg9 để mô phỏng tập dữ liệu chấm điểm nhưng giữ Stg10 vì bạn cần một nhãn để dự đoán. Sử dụng một phương pháp dựa trên cây như Rừng ngẫu nhiên vì chúng ổn với sự phụ thuộc giữa các biến và sẽ xử lý dữ liệu bị thiếu.

Sử dụng mô hình này để chấm điểm dữ liệu không ghi nhãn (nghĩa là nơi không có thông tin Stg10). Vấn đề còn lại là mức độ hoàn thiện trong bộ dữ liệu không ghi nhãn. Nếu chúng được lấp đầy đến Stg9, bạn không có vấn đề gì. Nếu tất cả họ đi đến Stg1, bạn có một vấn đề! Vì vậy, bạn sẽ phải xem liệu bạn có đủ tính đầy đủ trong dữ liệu của mình để hỗ trợ phương pháp này hay không.

Nhưng đó là một nơi hợp lệ để bắt đầu và có thể đủ cho mục đích của bạn ..


0

Nếu tôi hiểu vấn đề của bạn, bạn có thể coi vấn đề là một nhiệm vụ Phân loại với các đầu vào bị thiếu
Khi một số đầu vào có thể bị thiếu, thay vì cung cấp một hàm phân loại duy nhất, thuật toán học phải học một tập hợp các hàm. Mỗi hàm tương ứng với việc phân loại x với một tập hợp con khác nhau của đầu vào bị thiếu. "Nhưng chúng ta chỉ cần học một hàm duy nhất mô tả phân phối xác suất chung của tất cả chúng".

Hoặc bạn có thể định dạng nó là Imputation của các giá trị bị thiếu
Một thuật toán được đưa ra một ví dụ mới x nhưng với một số mục của x bị thiếu. Thuật toán phải cung cấp dự đoán về các giá trị của các mục bị thiếu.


0

Giải pháp đơn giản nhất là xây dựng 10 mô hình, mỗi mô hình một giai đoạn. Nó sẽ cho phép bạn sử dụng các tính năng khác nhau hoặc thậm chí các thuật toán khác nhau cho từng giai đoạn.


0

Tôi đã từng gặp vấn đề tương tự. bạn có thể sử dụng các hàm tổng hợp. Ví dụ: sử dụng Max, Min, Average, Count, std hoặc một số phép tính như độ dốc của đường. Sau đó, nó không liên quan đến sân khấu nữa.

Nó làm việc cho tôi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.