Học tăng cường có thể được áp dụng cho dự báo chuỗi thời gian?


Câu trả lời:


10

Có, nhưng nói chung nó không phải là một công cụ tốt cho nhiệm vụ, trừ khi có phản hồi đáng kể giữa dự đoán và hành vi liên tục của hệ thống.

Để xây dựng một vấn đề học tăng cường (RL) trong đó đáng sử dụng thuật toán dự đoán hoặc điều khiển RL, thì bạn cần xác định một số thành phần:

  • Một môi trường ở một trong nhiều trạng thái có thể được đo / quan sát theo trình tự.

  • Một tác nhân có thể quan sát trạng thái hiện tại và thực hiện các hành động theo cùng một trình tự.

  • Sự phát triển của trạng thái trong chuỗi nên phụ thuộc vào sự kết hợp giữa trạng thái hiện tại và hành động được thực hiện, và cũng có thể là ngẫu nhiên.

  • Cần có một tín hiệu khen thưởng mà tác nhân RL có thể quan sát hoặc đo lường. Giá trị của phần thưởng nên phụ thuộc vào các yếu tố giống như sự tiến hóa của nhà nước, nhưng có thể phụ thuộc vào chúng theo một cách khác.

Trường hợp chung của dự báo chuỗi thời gian có thể được thực hiện để phù hợp với điều này bằng cách coi dự đoán là hành động, có sự tiến hóa trạng thái chỉ phụ thuộc vào trạng thái hiện tại (cộng với tính ngẫu nhiên) và phần thưởng dựa trên trạng thái và hành động. Điều này sẽ cho phép RL được áp dụng, nhưng quan hệ nhân quả chỉ chảy một chiều - từ môi trường vào mô hình dự đoán của bạn. Như vậy, ví dụ, cách tốt nhất bạn có thể làm để nhận phần thưởng là sử dụng một số số liệu về tính chính xác của các dự đoán. Hậu quả cho dự đoán tốt hay xấu không ảnh hưởng đến môi trường ban đầu. Về cơ bản, bạn sẽ kết thúc việc bọc một số mô hình dự đoán cho chuỗi (chẳng hạn như mạng thần kinh) trong lớp RL, có thể dễ dàng thay thế bằng xử lý tập dữ liệu cơ bản cho vấn đề học tập có giám sát.

Một cách bạn có thể mở rộng một cách ý nghĩa các vấn đề dự báo hàng loạt thành các vấn đề RL là tăng phạm vi môi trường để bao gồm các quyết định được đưa ra dựa trên các dự đoán và trạng thái của các hệ thống bị ảnh hưởng bởi các quyết định đó. Ví dụ: nếu bạn dự đoán giá cổ phiếu, thì hãy bao gồm danh mục đầu tư và tiền của bạn vào tiểu bang. Tương tự như vậy, các hành động dừng lại là dự đoán, trở thành lệnh mua và bán. Điều này sẽ không cải thiện thành phần dự đoán giá (và có khả năng bạn nên coi đó là một vấn đề riêng biệt, sử dụng các công cụ phù hợp hơn - ví dụ LSTM), nhưng nó sẽ đóng khung vấn đề chung là vấn đề RL.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.