4
Làm thế nào để xử lý các động thái không hợp lệ trong học tập củng cố?
Tôi muốn tạo ra một AI có thể chơi năm liên tiếp / gomoku. Như tôi đã đề cập trong tiêu đề, tôi muốn sử dụng học tăng cường cho việc này. Tôi sử dụng phương pháp gradient chính sách , cụ thể là REINFORCE, với đường cơ sở. Đối …