Tôi đã cố gắng thêm GAE vào triển khai A2C của mình được một thời gian rồi, nhưng dường như tôi không thể hiểu được cách thức hoạt động của nó.
Sự hiểu biết của tôi về nó, là nó làm giảm phương sai của hàm ước tính lợi thế bằng cách 'lấy trung bình' (hoặc khái quát hóa) các lợi thế dựa trên các giá trị trong buổi giới thiệu.
Tôi đã cố gắng tự mình chạy qua các môn toán, và cuối cùng tôi chỉ có một lợi thế cho toàn bộ buổi giới thiệu, phải không? Thông thường, chúng tôi sẽ có một lợi thế cho mỗi dấu thời gian trong buổi giới thiệu.
Bất cứ ai cũng có thể cung cấp một lời giải thích về trực giác của GAE?