Là chính sách tối ưu luôn luôn ngẫu nhiên nếu môi trường cũng là ngẫu nhiên?


10

Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên?

Bằng trực giác, nếu môi trường là xác định (có nghĩa là, nếu các đại lý ở trong trạng thái S và có hành động một , sau đó trạng thái tiếp theo S' luôn luôn là như nhau, cho dù thời gian bước), sau đó các chính sách tối ưu cũng nên xác định (nghĩa là, nó phải là một bản đồ từ các trạng thái thành hành động và không phân phối xác suất qua các hành động).


Đây là một câu hỏi liên quan: mathoverflow.net/q/44677 .
nbro

Câu trả lời:


6

Là chính sách tối ưu luôn luôn ngẫu nhiên (nghĩa là một bản đồ từ các trạng thái đến phân phối xác suất qua các hành động) nếu môi trường cũng là ngẫu nhiên?

Không.

Một chính sách tối ưu thường mang tính quyết định trừ khi:

  • Thông tin trạng thái quan trọng bị thiếu (một POMDP). Ví dụ: trong bản đồ mà đại lý không được phép biết vị trí chính xác của nó hoặc ghi nhớ các trạng thái trước đó và trạng thái được cung cấp là không đủ để phân tán giữa các vị trí. Nếu mục tiêu là đến một địa điểm cụ thể, chính sách tối ưu có thể bao gồm một số di chuyển ngẫu nhiên để tránh bị mắc kẹt. Lưu ý rằng môi trường trong trường hợp này có thể mang tính quyết định (từ quan điểm của một người có thể nhìn thấy toàn bộ trạng thái), nhưng vẫn dẫn đến yêu cầu một chính sách ngẫu nhiên để giải quyết nó.

  • Có một số loại kịch bản lý thuyết trò chơi minimax, trong đó một chính sách xác định có thể bị trừng phạt bởi môi trường hoặc tác nhân khác. Hãy suy nghĩ kéo / giấy / đá hoặc tiến thoái lưỡng nan của tù nhân.

Theo trực giác, nếu môi trường mang tính xác định (nghĩa là, nếu tác nhân ở trạng thái và có hành động 𝑎, thì trạng thái tiếp theo 𝑠 luôn giống nhau, không quan trọng là bước thời gian nào), thì chính sách tối ưu cũng phải có tính xác định (nghĩa là, nó phải là một bản đồ từ các trạng thái thành hành động và không phân phối xác suất qua các hành động).

Điều đó có vẻ hợp lý, nhưng bạn có thể đưa trực giác đó đi xa hơn với bất kỳ phương thức nào dựa trên hàm giá trị:

Nếu bạn đã tìm thấy một hàm giá trị tối ưu, thì hành động tham lam đối với nó chính sách tối ưu.

Tuyên bố trên chỉ là một tuyên bố lại ngôn ngữ tự nhiên của phương trình tối ưu Bellman:

v*(S)= =tối đamộtΣr,S'p(r,S'|S,một)(r+γv*(S'))

tức là các giá trị tối ưu thu được khi luôn chọn hành động tối đa hóa phần thưởng cộng với giá trị chiết khấu của bước tiếp theo. Các tối đamột hoạt động là xác định (nếu cần thiết bạn có thể phá vỡ các mối quan hệ cho giá trị tối đa deterministically với ví dụ như một danh sách có thứ tự các hành động).

Do đó, bất kỳ môi trường nào có thể được mô hình hóa bằng MDP và được giải quyết bằng phương pháp dựa trên giá trị (ví dụ: lặp giá trị, Q-learning) có một chính sách tối ưu mang tính quyết định.

Trong một môi trường như vậy, giải pháp tối ưu có thể không ngẫu nhiên chút nào (nghĩa là nếu bạn thêm bất kỳ sự ngẫu nhiên nào vào chính sách tối ưu xác định, chính sách sẽ trở nên tồi tệ hơn). Tuy nhiên, khi có các mối quan hệ cho giá trị tối đa cho một hoặc nhiều hành động ở một hoặc nhiều trạng thái thì có nhiều chính sách tối ưu và xác định tương đương. Bạn có thể xây dựng một chính sách ngẫu nhiên kết hợp các chính sách này trong bất kỳ kết hợp nào và nó cũng sẽ tối ưu.


1
"Có thể trong một môi trường như vậy mà không có chính sách ngẫu nhiên nào là tối ưu", ý bạn là chính sách xác định?
nbro

2
@nbro: Không, tôi thực sự muốn nói rằng không có chính sách ngẫu nhiên tối ưu. Đây thường là trường hợp. Hãy suy nghĩ ví dụ về một người giải mê cung đơn giản. Nếu giải pháp xác định tối ưu là một đường dẫn duy nhất từ ​​đầu đến thoát, việc thêm bất kỳ sự ngẫu nhiên nào vào đó sẽ khiến chính sách trở nên tồi tệ hơn. Điều này không thay đổi nếu môi trường thêm tiếng ồn ngẫu nhiên (ví dụ: di chuyển đôi khi không thành công)
Neil Slater

2
Giờ thì tôi đã hiểu. Bạn đang nói rằng luôn có một chính sách xác định, sau đó một chính sách mang tính ngẫu nhiên và xuất phát từ chính sách xác định có thể sẽ tồi tệ hơn chính sách xác định tối ưu.
nbro

1
@nbro: Vâng, đúng vậy.
Neil Slater

5

Tôi sẽ nói không.

Ví dụ, hãy xem xét vấn đề tên cướp đa vũ trang . Vì vậy, bạn có n cánh tay mà tất cả đều có xác suất cho bạn phần thưởng (ví dụ 1 điểm),pTôiTôin

pTôi

Rõ ràng, nếu bạn ở trong một môi trường mà bạn chơi với các tác nhân khác (cài đặt lý thuyết trò chơi), chính sách tối ưu của bạn chắc chắn sẽ là ngẫu nhiên (ví dụ như nghĩ về một trò chơi poker).


Tại sao nó luôn rõ ràng khi luôn luôn chọn cánh tay có cao nhất ? p i là một xác suất, vì vậy không chắc chắn bạn sẽ luôn nhận được số tiền thưởng cao nhất (ít nhất là trong thời gian hữu hạn) nếu bạn luôn chọn nhánh i . pTôipTôiTôi
nbro

2
@nbro: Đó là điều chắc chắn trong kỳ vọng, đó là những gì chính sách tối ưu tối đa hóa. Các chính sách không cố gắng đoán thứ hai các trình tạo số ngẫu nhiên, điều đó được cho là không thể (nếu có thể do một số trạng thái bên trong của hệ thống, bạn phải thêm trạng thái nội bộ đó vào mô hình hoặc coi là POMDP)
Neil Slater

@NeilSlater Ok. Nhưng kết luận sẽ thay đổi nếu thời gian là hữu hạn? Nếu bạn có một khoảng thời gian giới hạn để chơi, thì tôi đoán, cũng phải xem xét thời gian có sẵn để chơi.
nbro

2
@nbro: Điều đó có thể thay đổi quyết định của bạn, nhưng không thực sự về chính sách tối ưu. Chính sách tối ưu cho cánh tay tên cướp vẫn mang tính quyết định, về việc sử dụng cánh tay tốt nhất, nhưng bạn không biết điều đó. Đây là về thăm dò vs khai thác. Bạn có thể nói rằng có "một chính sách tối ưu để khám phá một vấn đề tên cướp" có lẽ. Không phải thuật ngữ được sử dụng trong ví dụ Sutton & Barto, nhưng có lẽ một số người nói chuyện nói rằng, tôi không biết. . .
Neil Slater

1
Môi trường chỉ chứa một trạng thái mà bạn phải đối mặt với cùng một quyết định lặp đi lặp lại: tôi phải chọn cánh tay nào?
Adrien Forbu

0

Tôi đang nghĩ về một cảnh quan xác suất, trong đó bạn thấy mình là một diễn viên, với nhiều đỉnh và đáy khác nhau. Một cách tiếp cận xác định tốt luôn có khả năng đưa bạn đến tối ưu cục bộ gần nhất, nhưng không nhất thiết phải tối ưu toàn cầu. Để tìm tối ưu toàn cầu, một cái gì đó giống như thuật toán MCMC sẽ cho phép chấp nhận một cách ngẫu nhiên một kết quả tồi tệ tạm thời để thoát khỏi tối ưu cục bộ và tìm tối ưu toàn cầu. Trực giác của tôi là trong một môi trường ngẫu nhiên, điều này cũng sẽ đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.