Nếu bạn cần áp đặt từng giá trị bị thiếu, bạn có thể xem xét nhiều phương pháp nội suy hoặc nội suy cho Chuỗi thời gian. ví dụ: /programming/49308530/missing-values-in-time-series-in-python
Nếu mục tiêu chỉ đơn giản là dự đoán thời gian vào Giai đoạn 10 và không lo lắng khi chúng đạt đến giai đoạn trung gian, bạn có thể xử lý là vấn đề hồi quy, tức là chỉ dự đoán thời gian đến Giai đoạn 10. Cách đơn giản nhất có thể là - chỉ cần xử lý như thế này một vấn đề học tập có giám sát bình thường với một số dữ liệu bị thiếu. Bước bổ sung duy nhất là bạn cần tạo ra một số thiếu trong dữ liệu đào tạo / kiểm tra của bạn để phù hợp với dữ liệu bạn sẽ ghi được.
Dữ liệu đào tạo / kiểm tra của bạn sẽ bao gồm tất cả các hồ sơ với dữ liệu đầy đủ cho đến giai đoạn 10.
Sử dụng xác thực chéo hoặc phân chia kiểm tra / đào tạo trong dữ liệu này để tạo mô hình dự đoán để dự đoán thời gian đến Stg10. Trong dữ liệu này, ngẫu nhiên xóa dữ liệu giữa Stg1 và Stg9 để mô phỏng tập dữ liệu chấm điểm nhưng giữ Stg10 vì bạn cần một nhãn để dự đoán. Sử dụng một phương pháp dựa trên cây như Rừng ngẫu nhiên vì chúng ổn với sự phụ thuộc giữa các biến và sẽ xử lý dữ liệu bị thiếu.
Sử dụng mô hình này để chấm điểm dữ liệu không ghi nhãn (nghĩa là nơi không có thông tin Stg10). Vấn đề còn lại là mức độ hoàn thiện trong bộ dữ liệu không ghi nhãn. Nếu chúng được lấp đầy đến Stg9, bạn không có vấn đề gì. Nếu tất cả họ đi đến Stg1, bạn có một vấn đề! Vì vậy, bạn sẽ phải xem liệu bạn có đủ tính đầy đủ trong dữ liệu của mình để hỗ trợ phương pháp này hay không.
Nhưng đó là một nơi hợp lệ để bắt đầu và có thể đủ cho mục đích của bạn ..