Sự nhầm lẫn thuật toán MADDPG đa tác nhân-tác nhân

Tôi đang cố gắng tìm hiểu bài báo từ openAI có tên là Diễn viên đa tác nhân - Phê bình cho môi trường hợp tác cạnh tranh hỗn hợp

Trong bài báo, họ đề cập rằng họ chống lại vấn đề không cố định môi trường bằng cách lấy mẫu từ các chính sách phụ:

Tôi bối rối về: (1) việc lấy mẫu con sẽ giải quyết vấn đề không cố định như thế nào và (2) tại sao các tác nhân riêng lẻ có nhiều hơn một chính sách (phụ) có thể - không nên có một chính sách tối ưu duy nhất cho mỗi đại lý?

machine-learning deep-learning reinforcement-learning

— Mellow
nguồn

(1) cách lấy mẫu sẽ giải quyết vấn đề không cố định

Ý tưởng về việc lấy mẫu một loạt các chính sách phụ để các tác nhân khác thực hiện trong quá trình đào tạo là điều này giới thiệu sự đa dạng hơn trong hành vi của các tác nhân cạnh tranh, thay vì chỉ luôn huấn luyện chống lại "phiên bản" đối thủ gần đây nhất (có thể dẫn đến "Quá mức" chống lại các tác nhân đó). Nếu có sự đa dạng trong hành vi của đối thủ, đại lý của bạn sẽ buộc phải thử học một chính sách mạnh mẽ theo nghĩa là họ sẽ cố gắng học một chính sách có thể xử lý tất cả các đối thủ. Nếu không có sự đa dạng đó, nếu bạn chỉ luôn chọn các phiên bản đối thủ gần đây nhất, đại lý của bạn thay vào đó sẽ được khuyến khích chỉ học một chính sách mạnh đối với các phiên bản gần nhất của đối thủ.

Ví dụ, hãy xem xét trò chơi Rock-Paper-Kéo. Để cho $P_1$ và $P_2$ biểu thị hai tác nhân đang học đồng thời. Giả sử rằng họ sẽ chỉ đào tạo với nhau (thay vì có nhiều đối tác đào tạo khác nhau thông qua lấy mẫu). Giả sử $P_1$ được khởi tạo ngẫu nhiên để chủ yếu chỉ chơi Rock và $P_2$ được khởi tạo ngẫu nhiên để chủ yếu chỉ chơi Paper.

$P_2$ ban đầu sẽ thắng hầu hết các trò chơi của nó và $P_1$ sau đó sẽ học cách chỉ chơi Kéo rất thường xuyên. Một lần $P_1$ đã học được rằng, $P_2$ sẽ bắt đầu học chơi Rock rất thường xuyên. Khi đã xong, $P_1$ sẽ bắt đầu học chơi Paper rất thường xuyên. Cả hai đặc vụ sẽ tiếp tục đi theo vòng tròn như vậy, luôn học cách chỉ để chống lại hành vi gần đây nhất của người chơi khác.

Thay vào đó, nếu chúng tôi giới thiệu sự đa dạng hơn trong các đối tác đào tạo bằng cách lấy mẫu từ một nhóm nhiều chính sách đã học, chúng tôi sẽ có nhiều khả năng hội tụ chiến lược tối ưu để lựa chọn các hành động một cách ngẫu nhiên; đó là chiến lược duy nhất có khả năng thực hiện tốt trước một nhóm các chính sách khác nhau.

(2) tại sao các đại lý riêng lẻ sẽ có nhiều hơn một chính sách (phụ) có thể - không nên có một chính sách tối ưu duy nhất cho mỗi đại lý?

Cuối cùng, chúng ta thường muốn hội tụ một chính sách tối ưu * duy nhất cho mọi đại lý, vâng. Nhưng thông thường, chúng ta chưa có điều đó ... đó là lý do tại sao chúng ta thực hiện Học tăng cường ngay từ đầu! Chúng tôi không biết chính sách tối ưu (hoặc thậm chí chỉ là tốt) trông như thế nào, trước tiên chúng tôi phải tìm hiểu chính sách đó. Trong quá trình học tập đó, nếu chúng ta muốn (mà chúng ta làm dựa trên lý do trong câu trả lời của tôi cho câu hỏi trước của bạn ở trên), chúng ta có thể dễ dàng học một tập hợp các chính sách khác nhau, thay vì học một chính sách duy nhất. Ví dụ, điều này có thể được thực hiện đơn giản bằng cách đào tạo từng chính sách phụ về một tập hợp con khác nhau của trải nghiệm mà chúng tôi thu thập.

— Dennis Soemers
nguồn