Học tăng cường thường xuyên là gì

20

Gần đây tôi đã bắt gặp từ "Học tập củng cố thường xuyên". Tôi hiểu "Mạng thần kinh tái phát" là gì và "Học tăng cường" là gì, nhưng không thể tìm thấy nhiều thông tin về "Học tăng cường lặp lại" là gì.

Ai đó có thể giải thích cho tôi thế nào là "Học tăng cường lặp lại" và sự khác biệt giữa "Học tăng cường lặp lại" và "Học tăng cường" thông thường như thuật toán Q-Learning là gì.

machine-learning reinforcement-learning

— Số không âm
nguồn

15

"Học tập củng cố thường xuyên" là gì?

Học tăng cường lặp lại ( RRL ) lần đầu tiên được giới thiệu để đào tạo các hệ thống giao dịch mạng thần kinh vào năm 1996. "Tái phát" có nghĩa là đầu ra trước đó được đưa vào mô hình như một phần của đầu vào. Nó đã sớm được mở rộng để giao dịch trong một thị trường FX.

Các RRL kỹ thuật đã được tìm thấy là một kỹ thuật máy học thành công cho việc xây dựng hệ thống giao dịch tài chính.

Sự khác biệt giữa "học tăng cường thường xuyên" và "học tăng cường" thông thường (như thuật toán Q-Learning) là gì?

Cách tiếp cận RRL khác biệt rõ ràng với các thuật toán củng cố và lập trình động như TD-learning và Q-learning , cố gắng ước tính hàm giá trị cho bài toán điều khiển.

Khung RRL cho phép tạo ra cách trình bày vấn đề đơn giản và thanh lịch, tránh lời nguyền của Bellman về tính chiều và mang lại lợi thế hấp dẫn về hiệu quả:

RRL tạo ra các hành động có giá trị thực (trọng lượng danh mục đầu tư) một cách tự nhiên mà không cần dùng đến phương pháp rời rạc trong Q-learning .

RRL có hiệu suất ổn định hơn so với Q-learning khi tiếp xúc với các bộ dữ liệu ồn ào. Thuật toán Q-learning nhạy cảm hơn với lựa chọn hàm giá trị (có lẽ) do thuộc tính đệ quy của tối ưu hóa động, trong khi thuật toán RRL linh hoạt hơn trong việc chọn hàm mục tiêu và tiết kiệm thời gian tính toán.

Với RRL , các hệ thống giao dịch có thể được tối ưu hóa bằng cách tối đa hóa các chức năng hiệu suất, , chẳng hạn như "lợi nhuận" (lợi nhuận sau chi phí giao dịch), "sự giàu có", chức năng tiện ích của tỷ lệ hiệu suất hoặc điều chỉnh rủi ro như "tỷ lệ chia sẻ". $U( )$

Ở đây bạn sẽ tìm thấy một triển khai Matlab của thuật toán RRL.

Tài liệu tham khảo

Học tăng cường cho giao dịch

Học tăng cường cho hệ thống giao dịch và danh mục đầu tư

Giao dịch ngoại hối thông qua học tập củng cố định kỳ

Giao dịch chứng khoán với việc học tăng cường thường xuyên (RRL)

Giao dịch thuật toán sử dụng Q-Learning và học tập củng cố định kỳ

GIẢI QUYẾT TÍNH TOÁN CHO GIAO DỊCH FX TỰ ĐỘNG - XÂY DỰNG MÔ HÌNH HYBRID

— Anton Danilov
nguồn

@AntonDanilov Tôi không chắc bạn có biết điều này không. Anh chàng đã nảy ra ý tưởng này (tài liệu tham khảo đầu tiên của bạn, J Moody) đã điều hành một quỹ bằng cách sử dụng thuật toán này - và màn trình diễn của anh ấy đã không còn xa vời.

— horaceT

Vì vậy, rất tốt để biết nhưng làm thế nào nó thay đổi câu trả lời

— Anton Danilov

2

Điểm khác biệt của RL tái phát (sâu), là chức năng ánh xạ các quan sát tác nhân đến hành động đầu ra của nó là Mạng thần kinh tái phát.

Mạng thần kinh tái phát là một loại mạng thần kinh xử lý từng quan sát theo tuần tự, theo cùng một cách cho mỗi bước thời gian.

Bài viết gốc: Học hỏi thường xuyên sâu cho các MDP có thể quan sát được một phần

— Tìm hiểu
nguồn