Tôi muốn tạo ra một AI có thể chơi năm liên tiếp / gomoku. Như tôi đã đề cập trong tiêu đề, tôi muốn sử dụng học tăng cường cho việc này.
Tôi sử dụng phương pháp gradient chính sách , cụ thể là REINFORCE, với đường cơ sở. Đối với giá trị gần đúng và hàm chính sách, tôi sử dụng mạng nơ ron . Nó có các lớp chập và kết nối đầy đủ. Tất cả các lớp, ngoại trừ đầu ra, được chia sẻ. Lớp đầu ra của chính sách có đơn vị đầu ra (kích thước của bảng) và softmax trên chúng. Vì vậy, nó là ngẫu nhiên. Nhưng điều gì sẽ xảy ra nếu mạng tạo ra xác suất rất cao cho một động thái không hợp lệ? Di chuyển không hợp lệ là khi tác nhân muốn kiểm tra một hình vuông có một chữ "X" hoặc "O" trong đó. Tôi nghĩ rằng nó có thể bị mắc kẹt trong trạng thái trò chơi đó.
Bạn có thể đề nghị bất kỳ giải pháp cho vấn đề này?
Tôi đoán là sử dụng phương pháp phê bình diễn viên . Đối với một nước đi không hợp lệ, chúng ta nên đưa ra một phần thưởng tiêu cực và chuyển lượt cho đối thủ.