Tôi đang cố gắng hiểu cách tiếp cận độ dốc chính sách để giải quyết vấn đề cartpole . Theo cách tiếp cận này, chúng tôi biểu thị độ dốc của tổn thất ghi từng tham số trong chính sách của chúng tôi như là một kỳ vọng về tổng độ dốc của độ dốc chính sách của chúng tôi cho tất cả các hành động, được tính bằng tổng số phần thưởng giảm giá trong chuỗi đó:
và chúng tôi ước tính nó bằng cách sử dụng trung bình theo kinh nghiệm trên tất cả các mẫu trong một tập - điều này có ý nghĩa bằng trực giác.
NHƯNG phần ít trực quan hơn là tôi đã thấy một thực tiễn phổ biến để bình thường hóa lợi thế giữa các tập trong một số triển khai (và thực sự nó hoạt động tốt hơn). Vì vậy, sau khi họ tính toán, họ sẽ không trực tiếp sử dụng lợi thế, mà sẽ bình thường hóa nó, ví dụ như ở đây họ làm sau mỗi tập phim:
discounted_epr = discount_rewards(epr)
discounted_epr -= np.mean(discounted_epr)
discounted_epr /= np.std(discounted_epr)
những gì biện minh cho điều đó - cả về lý thuyết và trực giác? Dường như với tôi rằng nếu một tập phim dài và như vậy có lợi thế lớn, thì đáng để học hỏi nhiều hơn từ tập đó hơn là từ tập 3 di chuyển. Tôi đang thiếu gì?