Làm thế nào độ dốc chính sách có thể được áp dụng trong trường hợp có nhiều hành động liên tục?


11

Tối ưu hóa chính sách khu vực đáng tin cậy (TRPO) và tối ưu hóa chính sách gần (PPO) là hai thuật toán độ dốc chính sách tiên tiến.

Thông thường, khi sử dụng một hành động liên tục duy nhất, bạn sẽ sử dụng một số phân phối xác suất (ví dụ: Gaussian) cho hàm mất mát. Phiên bản thô là:

L(θ)= =đăng nhập(P(một1))Một,

nơi Một là lợi thế của phần thưởng, P(một1) được đặc trưng bởi μσ2 mà đi ra khỏi mạng lưới thần kinh như thế nào trong môi trường Pendulum ở đây: https://github.com/leomzhong/DeepReinfor /main.py .

Vấn đề là tôi không thể tìm thấy bất kỳ bài báo nào về hơn 2 hành động liên tục bằng cách sử dụng độ dốc chính sách (không phải các phương thức phê bình diễn viên sử dụng một cách tiếp cận khác bằng cách chuyển gradient từ hàm Q).

Bạn có biết cách thực hiện việc này bằng TRPO cho 2 hành động liên tục trong môi trường LunarLander không?

Là cách tiếp cận chính xác cho chức năng mất độ dốc chính sách?

L(θ)= =(đăng nhậpP(một)+đăng nhậpP(một2))*Một

Câu trả lời:


6

Như bạn đã nói, các hành động được chọn bởi Actor-Critic thường xuất phát từ phân phối bình thường và công việc của đại lý là tìm giá trị trung bình và độ lệch chuẩn phù hợp dựa trên trạng thái hiện tại. Trong nhiều trường hợp, một phân phối này là đủ vì chỉ cần 1 hành động liên tục. Tuy nhiên, khi các lĩnh vực như robot trở nên tích hợp hơn với AI, các tình huống đòi hỏi phải có 2 hành động liên tục trở lên là một vấn đề đang gia tăng.

Có 2 giải pháp cho vấn đề này: Thứ nhất và phổ biến nhất là đối với mỗi hành động liên tục, có một tác nhân riêng biệt học trung bình 1 chiều và độ lệch chuẩn của chính nó. Một phần của trạng thái của nó bao gồm các hành động của các tác nhân khác cũng như để đưa ra bối cảnh của toàn bộ hệ thống đang làm. Chúng tôi thường làm điều này trong phòng thí nghiệm của tôi và đây là một bài viết mô tả phương pháp này với 3 tác nhân phê bình diễn viên làm việc cùng nhau để di chuyển một cánh tay robot.

Cách tiếp cận thứ hai là yêu cầu một tác nhân tìm một bản phân phối đa biến (thường là bình thường) của một chính sách. Mặc dù về mặt lý thuyết, cách tiếp cận này có thể có phân phối chính sách ngắn gọn hơn bằng cách "xoay" phân phối dựa trên ma trận đồng phương, điều đó có nghĩa là tất cả các giá trị của ma trận đồng phương cũng phải được học. Điều này làm tăng số lượng giá trị phải họcn đầu ra liên tục từ 2n (có nghĩa là và stddev), để n+n2 (n phương tiện và một n×nma trận hiệp phương sai). Nhược điểm này đã làm cho cách tiếp cận này không phổ biến trong các tài liệu.

Đây là một câu trả lời tổng quát hơn nhưng sẽ giúp bạn và những người khác về các vấn đề liên quan của họ.


1
Jaden cảm ơn vì câu trả lời tuyệt vời. 1. Tôi đã thử kiến ​​trúc đa tác nhân, nhưng nó không hiệu quả lắm. Mất nhiều thời gian hơn để hội tụ. 2. Bây giờ phân phối đa biến dường như quá rõ ràng đối với tôi, cảm ơn bạn.
Evalds Urtans

1
Tùy thuộc vào ứng dụng và kiến ​​trúc (nếu là mạng sâu), bạn có thể yêu cầu các tác nhân chia sẻ các tính năng cấp thấp và sau đó phân nhánh chúng thành các hàm giá trị riêng. Ngoài ra, có 1 nhà phê bình và nhiều diễn viên cũng là một cách để tăng kiến ​​trúc.
Jaden Tra Mand

Hiện tại tôi muốn áp dụng các đề xuất của bạn cho TRPO (chỉ là phương pháp gradient chính sách), chứ không phải nhà phê bình diễn viên. Tôi không tự tin lắm trong việc chuyển gradient từ nhà phê bình sang diễn viên - trong nhiều lần triển khai tôi đã thấy có vẻ như nó không hoạt động ngay cả khi nó hội tụ.
Evalds Urtans

1
Xin lỗi cho câu hỏi này: Làm thế nào điều này được áp dụng trong các phương pháp phê bình diễn viên (nơi diễn viên có thể thực hiện nhiều hành động liên tục đồng thời), nơi diễn viên có chức năng chính sách và được đào tạo theo phương pháp chính sách gradient? @JadenTra Mand Bạn có thể giải thích điều đó trong câu trả lời dưới tiêu đề mới không?
Gokul NC
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.