3
Là chính sách tối ưu luôn luôn ngẫu nhiên nếu môi trường cũng là ngẫu nhiên?
Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên? Bằng trực giác, nếu môi trường là xác định (có nghĩa là, nếu các đại lý …