Tối ưu hóa chính sách khu vực đáng tin cậy (TRPO) và tối ưu hóa chính sách gần (PPO) là hai thuật toán độ dốc chính sách tiên tiến.
Thông thường, khi sử dụng một hành động liên tục duy nhất, bạn sẽ sử dụng một số phân phối xác suất (ví dụ: Gaussian) cho hàm mất mát. Phiên bản thô là:
nơi là lợi thế của phần thưởng, được đặc trưng bởi và mà đi ra khỏi mạng lưới thần kinh như thế nào trong môi trường Pendulum ở đây: https://github.com/leomzhong/DeepReinfor /main.py .
Vấn đề là tôi không thể tìm thấy bất kỳ bài báo nào về hơn 2 hành động liên tục bằng cách sử dụng độ dốc chính sách (không phải các phương thức phê bình diễn viên sử dụng một cách tiếp cận khác bằng cách chuyển gradient từ hàm Q).
Bạn có biết cách thực hiện việc này bằng TRPO cho 2 hành động liên tục trong môi trường LunarLander không?
Là cách tiếp cận chính xác cho chức năng mất độ dốc chính sách?