Câu hỏi được gắn thẻ «deterministic-policy»

3
Là chính sách tối ưu luôn luôn ngẫu nhiên nếu môi trường cũng là ngẫu nhiên?
Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên? Bằng trực giác, nếu môi trường là xác định (có nghĩa là, nếu các đại lý …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.