Học tăng cường học bằng Sutton, Tic tac toe tự chơi

Tôi mới bắt đầu cuốn sách của Sutton và Barto, Học tăng cường: Giới thiệu và tò mò về cách nghĩ về câu trả lời cho Bài tập 1.1: Tự chơi . Giả sử, thay vì chơi với một đối thủ ngẫu nhiên, thuật toán học tăng cường được mô tả ở trên đã chơi với chính nó. Bạn nghĩ điều gì sẽ xảy ra trong trường hợp này? Nó sẽ học một cách chơi khác?

Người ta cũng có thể nghĩ về những câu hỏi phụ liên quan sau đây, nhưng chúng không làm cho suy nghĩ của tôi rõ ràng hơn.

Việc loại bỏ phần ngẫu nhiên của việc học sẽ thay đổi tình huống - tức là luôn tuân theo chính sách tối ưu và không khám phá?
Làm thế nào nó sẽ phụ thuộc vào người đầu tiên là ai?

reinforcement-learning

— ngày
nguồn

Đây không phải là yêu cầu câu trả lời cho một vấn đề bài tập về nhà. Điều này có thể vẫn mở IMO.

— gung - Phục hồi Monica

Nếu nó chơi chính nó, hoàn toàn có thể này .

— gung - Phục hồi Monica

Tôi không chắc chắn về câu hỏi đầu tiên. Về thứ hai, đây là những suy nghĩ của tôi:

Nếu bạn nghĩ về không gian trạng thái của tic-tac-toe, nó có thể được phân chia thành hai tập hợp con loại trừ lẫn nhau, một trạng thái bao gồm các trạng thái được nhìn thấy khi chơi đầu tiên, trạng thái khác bao gồm các trạng thái nhìn thấy khi chơi thứ hai. Nếu một trong hai bên luôn chơi trước, thì bên kia sẽ chỉ trải nghiệm một trong hai tập hợp con trong không gian trạng thái. Nó sẽ cố gắng học một chính sách sẽ cố gắng giành chiến thắng như một người chơi thứ hai.

Sẽ là tốt nếu có cả hai bên chơi như người chơi thứ nhất và thứ hai. Tung đồng xu trước mỗi trận đấu - nếu người đứng đầu, hãy để bên trái chơi trước, nếu không thì bên phải bắt đầu. Bằng cách này, chúng tôi ít nhất có thể đảm bảo rằng chính sách của đại lý độc lập với bên nào bắt đầu trước.

— Karthik Thiagarajan
nguồn