3
Tại sao tỷ lệ chiết khấu trong thuật toán REINFORCE xuất hiện hai lần?
Tôi đang đọc cuốn sách Củng cố học tập: Giới thiệu của Richard S. Sutton và Andrew G. Barto (bản thảo hoàn chỉnh, ngày 5 tháng 11 năm 2017). Trên trang 271, mã giả cho Phương pháp Gradient chính sách Monte-Carlo được trình bày. Nhìn vào mã giả này tôi …