Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên?
Không.
Một chính sách tối ưu thường mang tính quyết định trừ khi:
Thông tin trạng thái quan trọng bị thiếu (một POMDP). Ví dụ: trong bản đồ mà đại lý không được phép biết vị trí chính xác của nó hoặc ghi nhớ các trạng thái trước đó và trạng thái được cung cấp là không đủ để phân tán giữa các vị trí. Nếu mục tiêu là đến một địa điểm cụ thể, chính sách tối ưu có thể bao gồm một số di chuyển ngẫu nhiên để tránh bị mắc kẹt. Lưu ý rằng môi trường trong trường hợp này có thể mang tính quyết định (từ quan điểm của một người có thể nhìn thấy toàn bộ trạng thái), nhưng vẫn dẫn đến yêu cầu một chính sách ngẫu nhiên để giải quyết nó.
Có một số loại kịch bản lý thuyết trò chơi minimax, trong đó một chính sách xác định có thể bị trừng phạt bởi môi trường hoặc tác nhân khác. Hãy suy nghĩ kéo / giấy / đá hoặc tiến thoái lưỡng nan của tù nhân.
Theo trực giác, nếu môi trường mang tính xác định (nghĩa là, nếu tác nhân ở trạng thái và có hành động 𝑎, thì trạng thái tiếp theo 𝑠 luôn giống nhau, không quan trọng là bước thời gian nào), thì chính sách tối ưu cũng phải có tính xác định (nghĩa là, nó phải là một bản đồ từ các trạng thái thành hành động và không phân phối xác suất qua các hành động).
Điều đó có vẻ hợp lý, nhưng bạn có thể đưa trực giác đó đi xa hơn với bất kỳ phương thức nào dựa trên hàm giá trị:
Nếu bạn đã tìm thấy một hàm giá trị tối ưu, thì hành động tham lam đối với nó là chính sách tối ưu.
Tuyên bố trên chỉ là một tuyên bố lại ngôn ngữ tự nhiên của phương trình tối ưu Bellman:
v*( s ) = tối đamộtΣr , s'p ( r , s'| s,một)(r+γv*( s') )
tức là các giá trị tối ưu thu được khi luôn chọn hành động tối đa hóa phần thưởng cộng với giá trị chiết khấu của bước tiếp theo. Các tối đamột hoạt động là xác định (nếu cần thiết bạn có thể phá vỡ các mối quan hệ cho giá trị tối đa deterministically với ví dụ như một danh sách có thứ tự các hành động).
Do đó, bất kỳ môi trường nào có thể được mô hình hóa bằng MDP và được giải quyết bằng phương pháp dựa trên giá trị (ví dụ: lặp giá trị, Q-learning) có một chính sách tối ưu mang tính quyết định.
Trong một môi trường như vậy, giải pháp tối ưu có thể không ngẫu nhiên chút nào (nghĩa là nếu bạn thêm bất kỳ sự ngẫu nhiên nào vào chính sách tối ưu xác định, chính sách sẽ trở nên tồi tệ hơn). Tuy nhiên, khi có các mối quan hệ cho giá trị tối đa cho một hoặc nhiều hành động ở một hoặc nhiều trạng thái thì có nhiều chính sách tối ưu và xác định tương đương. Bạn có thể xây dựng một chính sách ngẫu nhiên kết hợp các chính sách này trong bất kỳ kết hợp nào và nó cũng sẽ tối ưu.