Mối quan hệ giữa lý thuyết trò chơi và học tập củng cố là gì?


11

Tôi quan tâm đến (Deep) Học tăng cường (RL) . Trước khi đi sâu vào lĩnh vực này, tôi có nên tham gia một khóa học về Lý thuyết trò chơi (GT) không?

Làm thế nào GTRL liên quan?


2
Chúng có liên quan chặt chẽ như búa và kem đánh. Bạn có thể tìm thấy một vấn đề trong đó bạn có thể sử dụng cả hai, nhưng nó không phổ biến.
Don Reba

4
@DonReba Không theo hai nhà nghiên cứu nổi tiếng về Học tăng cường: udacity.com/c thuyết / Từ Tôi nghĩ rằng Lý thuyết trò chơi cho bạn biết chính sách tối ưu là gì, trong khi RL cho bạn biết làm thế nào các tác nhân có thể học được chính sách tối ưu hoặc chính sách tốt.
Kiuhnm

3
@DonReba, có lẽ về mặt nội dung thông thường được dạy trong đó. Tuy nhiên, mục đích của hai lĩnh vực không quá khác nhau. Học tăng cường có thể được xem như một trò chơi thông tin không hoàn hảo, thường dành cho một người chơi. Hoặc như một trò chơi hai người chơi, trong đó người chơi khác, theo một bộ quy tắc bạn muốn khám phá.
phỏng đoán

Đây là giáo dục. :)
Don Reba

Câu trả lời:


12

Trong Học tăng cường (RL), người ta thường hình dung ra một Quy trình quyết định Markov (MDP) cơ bản. Sau đó, mục tiêu của RL là tìm hiểu một chính sách tốt cho MDP, thường chỉ được xác định một phần. MDP có thể có các mục tiêu khác nhau, chẳng hạn như phần thưởng tổng, trung bình hoặc chiết khấu, trong đó phần thưởng chiết khấu là giả định phổ biến nhất cho RL. Có các phần mở rộng được nghiên cứu kỹ về MDP cho cài đặt hai người chơi (tức là trò chơi); xem, ví dụ,

Filar, Jerzy và Koos Vrieze. Quy trình quyết định cạnh tranh Markov . Springer Science & Business Media, 2012.

Có một lý thuyết cơ bản được chia sẻ bởi MDP và các phần mở rộng của chúng cho các trò chơi hai người chơi (tổng bằng không), bao gồm, ví dụ: định lý điểm cố định Banach, Lặp lại giá trị, Tối ưu hóa Bellman, Lặp lại chính sách / Cải thiện chiến lược, v.v. các kết nối chặt chẽ giữa MDP (và do đó RL) và các loại trò chơi cụ thể này:

  • bạn có thể tìm hiểu về RL (và MDP) trực tiếp mà không cần GT là điều kiện tiên quyết;
  • Dù sao, bạn sẽ không tìm hiểu về nội dung này trong phần lớn các khóa học GT (thường được tập trung vào, ví dụ: các trò chơi dạng chiến lược, dạng mở rộng và lặp đi lặp lại, nhưng không phải là các trò chơi vô hạn dựa trên trạng thái khái quát hóa MDP).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.