Nhưng trong lần lặp chính sách, chúng ta phải tạo ra một vectơ softmax liên quan đến từng hành động
Điều này là không đúng sự thật. Vectơ softmax là một cách có thể để thể hiện chính sách và hoạt động cho các không gian hành động riêng biệt. Sự khác biệt giữa độ dốc chính sách và cách tiếp cận hàm giá trị ở đây là ở cách bạn sử dụng đầu ra. Đối với hàm giá trị, bạn sẽ tìm thấy đầu ra tối đa và chọn nó (có lẽ là tham lam) và đó phải là ước tính của giá trị của việc thực hiện hành động đó. Đối với chức năng chính sách, bạn sẽ sử dụng đầu ra làm xác suất để chọn từng hành động và bạn không biết giá trị của việc thực hiện hành động đó.ϵ
Vì vậy, tôi không hiểu làm thế nào điều này có thể sử dụng để làm việc với không gian hành động liên tục?
Với các phương thức gradient chính sách, chính sách có thể là bất kỳ chức năng nào của tham số của bạn :θ
Vì vậy, ví dụ chức năng chính sách của bạn có thể là
πθ(s)=N(μ(s,θ),σ(s,θ))
trong đó và có thể là các chức năng bạn triển khai với ví dụ: mạng thần kinh. Đầu ra của mạng là một mô tả về phân phối Bình thường cho giá trị hành động cho một giá trị trạng thái . Chính sách yêu cầu bạn lấy mẫu từ phân phối bình thường được xác định bởi các giá trị đó (NN không thực hiện lấy mẫu đó, bạn thường phải thêm mã đó vào mã).μσas
Tại sao các phương thức gradient chính sách được ưa thích hơn xấp xỉ hàm giá trị trong các miền hành động liên tục?
Mặc dù vẫn có thể ước tính giá trị của cặp trạng thái / hành động trong không gian hành động liên tục, nhưng điều này không giúp bạn chọn một hành động. Xem xét cách bạn có thể thực hiện chính sách tham gia bằng cách sử dụng xấp xỉ giá trị hành động: Nó sẽ yêu cầu thực hiện tối ưu hóa không gian hành động cho mỗi và mọi lựa chọn hành động, để tìm hành động tối ưu ước tính. Điều này là có thể, nhưng có khả năng rất chậm / không hiệu quả (cũng có nguy cơ tìm thấy tối đa cục bộ).ϵ
Làm việc trực tiếp với các chính sách phát ra phân phối xác suất có thể tránh được vấn đề này, miễn là các phân phối đó dễ lấy mẫu. Do đó, bạn sẽ thường thấy những thứ như chính sách kiểm soát các tham số của phân phối Bình thường hoặc tương tự, bởi vì nó được biết cách dễ dàng lấy mẫu từ các phân phối đó.