"Học tập củng cố thường xuyên" là gì?
Học tăng cường lặp lại ( RRL ) lần đầu tiên được giới thiệu để đào tạo các hệ thống giao dịch mạng thần kinh vào năm 1996. "Tái phát" có nghĩa là đầu ra trước đó được đưa vào mô hình như một phần của đầu vào. Nó đã sớm được mở rộng để giao dịch trong một thị trường FX.
Các RRL kỹ thuật đã được tìm thấy là một kỹ thuật máy học thành công cho việc xây dựng hệ thống giao dịch tài chính.
Sự khác biệt giữa "học tăng cường thường xuyên" và "học tăng cường" thông thường (như thuật toán Q-Learning) là gì?
Cách tiếp cận RRL khác biệt rõ ràng với các thuật toán củng cố và lập trình động như TD-learning và Q-learning , cố gắng ước tính hàm giá trị cho bài toán điều khiển.
Khung RRL cho phép tạo ra cách trình bày vấn đề đơn giản và thanh lịch, tránh lời nguyền của Bellman về tính chiều và mang lại lợi thế hấp dẫn về hiệu quả:
RRL tạo ra các hành động có giá trị thực (trọng lượng danh mục đầu tư) một cách tự nhiên mà không cần dùng đến phương pháp rời rạc trong Q-learning .
RRL có hiệu suất ổn định hơn so với Q-learning khi tiếp xúc với các bộ dữ liệu ồn ào. Thuật toán Q-learning nhạy cảm hơn với lựa chọn hàm giá trị (có lẽ) do thuộc tính đệ quy của tối ưu hóa động, trong khi thuật toán RRL linh hoạt hơn trong việc chọn hàm mục tiêu và tiết kiệm thời gian tính toán.
Với RRL , các hệ thống giao dịch có thể được tối ưu hóa bằng cách tối đa hóa các chức năng hiệu suất, , chẳng hạn như "lợi nhuận" (lợi nhuận sau chi phí giao dịch), "sự giàu có", chức năng tiện ích của tỷ lệ hiệu suất hoặc điều chỉnh rủi ro như "tỷ lệ chia sẻ".Bạn( )
Ở đây bạn sẽ tìm thấy một triển khai Matlab của thuật toán RRL.
Tài liệu tham khảo
Học tăng cường cho giao dịch
Học tăng cường cho hệ thống giao dịch và danh mục đầu tư
Giao dịch ngoại hối thông qua học tập củng cố định kỳ
Giao dịch chứng khoán với việc học tăng cường thường xuyên (RRL)
Giao dịch thuật toán sử dụng Q-Learning và học tập củng cố định kỳ
GIẢI QUYẾT TÍNH TOÁN CHO GIAO DỊCH FX TỰ ĐỘNG - XÂY DỰNG MÔ HÌNH HYBRID