Tôi mới bắt đầu cuốn sách của Sutton và Barto, Học tăng cường: Giới thiệu và tò mò về cách nghĩ về câu trả lời cho Bài tập 1.1: Tự chơi . Giả sử, thay vì chơi với một đối thủ ngẫu nhiên, thuật toán học tăng cường được mô tả ở trên đã chơi với chính nó. Bạn nghĩ điều gì sẽ xảy ra trong trường hợp này? Nó sẽ học một cách chơi khác?
Người ta cũng có thể nghĩ về những câu hỏi phụ liên quan sau đây, nhưng chúng không làm cho suy nghĩ của tôi rõ ràng hơn.
- Việc loại bỏ phần ngẫu nhiên của việc học sẽ thay đổi tình huống - tức là luôn tuân theo chính sách tối ưu và không khám phá?
- Làm thế nào nó sẽ phụ thuộc vào người đầu tiên là ai?