Đó là một vấn đề tinh tế.
Nếu bạn nhìn vào thuật toán A3C trong bài báo gốc (tr.4 và phụ lục S3 cho mã giả), thuật toán phê bình diễn viên của họ (cùng một thuật toán cả hai vấn đề về tình tiết và tiếp diễn) sẽ bị tắt bởi một yếu tố gamma so với diễn viên- nhà phê bình mã giả cho các vấn đề về tình tiết trong cuốn sách Sutton và Barto (tr.332 tháng 1 năm 2019 của http://incompleteideas.net/book/the-book.html ). Cuốn sách Sutton và Barto có thêm gamma "đầu tiên" như được dán nhãn trong ảnh của bạn. Vì vậy, hoặc cuốn sách hoặc giấy A3C là sai? Không hẳn vậy.
Chìa khóa là trên p. 199 cuốn sách Sutton và Barto:
Nếu có chiết khấu (gamma <1) thì nên coi đó là một hình thức chấm dứt, có thể được thực hiện đơn giản bằng cách bao gồm một yếu tố trong nhiệm kỳ thứ hai của (9.2).
Vấn đề tinh tế là có hai cách hiểu về yếu tố giảm giá gamma:
- Một yếu tố nhân mà đặt ít trọng lượng hơn vào phần thưởng tương lai xa.
- Một xác suất, 1 - gamma, rằng một quỹ đạo mô phỏng chấm dứt một cách đột ngột, bất cứ lúc nào. Giải thích này chỉ có ý nghĩa đối với các trường hợp tình tiết, và không tiếp tục các trường hợp.
Thực hiện nghĩa đen:
- Chỉ cần nhân các phần thưởng trong tương lai và số lượng liên quan (V hoặc Q) trong tương lai bằng gamma.
- Mô phỏng một số quỹ đạo và chấm dứt ngẫu nhiên (1 - gamma) của chúng tại mỗi bước thời gian. Quỹ đạo chấm dứt không đưa ra phần thưởng ngay lập tức hoặc trong tương lai.
G ∇ lnπ( a | s )
Ví dụ, nếu bạn đang ở bước t = 2 và gamma = 0.9, thuật toán cho việc giải thích thứ hai là chính sách gradient là γ2G ∇ lnπ( a | s )0,81 G ∇ lnπ( a | s )
G ∇ lnπ( a | s )G
Bạn có thể chọn bất kỳ cách giải thích nào về gamma, nhưng bạn phải chú ý đến hậu quả của thuật toán. Cá nhân tôi thích gắn bó với giải thích 1 chỉ vì nó đơn giản hơn. Vì vậy, tôi sử dụng thuật toán trong bài báo A3C, không phải cuốn sách Sutton và Barto.
Câu hỏi của bạn là về thuật toán REINFORCE, nhưng tôi đã thảo luận về nhà phê bình diễn viên. Bạn có cùng một vấn đề chính xác liên quan đến hai cách hiểu gamma và gamma phụ trong REINFORCE.