Tôi quan tâm đến (Deep) Học tăng cường (RL) . Trước khi đi sâu vào lĩnh vực này, tôi có nên tham gia một khóa học về Lý thuyết trò chơi (GT) không?
Làm thế nào GT và RL liên quan?
Tôi quan tâm đến (Deep) Học tăng cường (RL) . Trước khi đi sâu vào lĩnh vực này, tôi có nên tham gia một khóa học về Lý thuyết trò chơi (GT) không?
Làm thế nào GT và RL liên quan?
Câu trả lời:
Trong Học tăng cường (RL), người ta thường hình dung ra một Quy trình quyết định Markov (MDP) cơ bản. Sau đó, mục tiêu của RL là tìm hiểu một chính sách tốt cho MDP, thường chỉ được xác định một phần. MDP có thể có các mục tiêu khác nhau, chẳng hạn như phần thưởng tổng, trung bình hoặc chiết khấu, trong đó phần thưởng chiết khấu là giả định phổ biến nhất cho RL. Có các phần mở rộng được nghiên cứu kỹ về MDP cho cài đặt hai người chơi (tức là trò chơi); xem, ví dụ,
Filar, Jerzy và Koos Vrieze. Quy trình quyết định cạnh tranh Markov . Springer Science & Business Media, 2012.
Có một lý thuyết cơ bản được chia sẻ bởi MDP và các phần mở rộng của chúng cho các trò chơi hai người chơi (tổng bằng không), bao gồm, ví dụ: định lý điểm cố định Banach, Lặp lại giá trị, Tối ưu hóa Bellman, Lặp lại chính sách / Cải thiện chiến lược, v.v. các kết nối chặt chẽ giữa MDP (và do đó RL) và các loại trò chơi cụ thể này:
Lý thuyết trò chơi khá liên quan đến bối cảnh học tập Củng cố đa tác nhân (MARL).
Hãy xem các trò chơi ngẫu nhiên hoặc đọc bài viết Phân tích lý thuyết trò chơi ngẫu nhiên cho việc học tập tăng cường nhiều yếu tố .
Tôi sẽ không xem GT là điều kiện tiên quyết cho RL. Tuy nhiên, nó cung cấp một phần mở rộng tốt đẹp cho trường hợp đa tác nhân.