2
Tại sao Q Learning phân kỳ?
Các giá trị trạng thái của thuật toán Q-Learning của tôi tiếp tục chuyển sang vô cùng, điều đó có nghĩa là các trọng số của tôi cũng đang chuyển hướng. Tôi sử dụng một mạng lưới thần kinh cho ánh xạ giá trị của tôi. Tôi đã thử: Cắt …