(1) cách lấy mẫu sẽ giải quyết vấn đề không cố định
Ý tưởng về việc lấy mẫu một loạt các chính sách phụ để các tác nhân khác thực hiện trong quá trình đào tạo là điều này giới thiệu sự đa dạng hơn trong hành vi của các tác nhân cạnh tranh, thay vì chỉ luôn huấn luyện chống lại "phiên bản" đối thủ gần đây nhất (có thể dẫn đến "Quá mức" chống lại các tác nhân đó). Nếu có sự đa dạng trong hành vi của đối thủ, đại lý của bạn sẽ buộc phải thử học một chính sách mạnh mẽ theo nghĩa là họ sẽ cố gắng học một chính sách có thể xử lý tất cả các đối thủ. Nếu không có sự đa dạng đó, nếu bạn chỉ luôn chọn các phiên bản đối thủ gần đây nhất, đại lý của bạn thay vào đó sẽ được khuyến khích chỉ học một chính sách mạnh đối với các phiên bản gần nhất của đối thủ.
Ví dụ, hãy xem xét trò chơi Rock-Paper-Kéo. Để choP1 và P2biểu thị hai tác nhân đang học đồng thời. Giả sử rằng họ sẽ chỉ đào tạo với nhau (thay vì có nhiều đối tác đào tạo khác nhau thông qua lấy mẫu). Giả sửP1 được khởi tạo ngẫu nhiên để chủ yếu chỉ chơi Rock và P2 được khởi tạo ngẫu nhiên để chủ yếu chỉ chơi Paper.
P2 ban đầu sẽ thắng hầu hết các trò chơi của nó và P1sau đó sẽ học cách chỉ chơi Kéo rất thường xuyên. Một lầnP1 đã học được rằng, P2sẽ bắt đầu học chơi Rock rất thường xuyên. Khi đã xong,P1sẽ bắt đầu học chơi Paper rất thường xuyên. Cả hai đặc vụ sẽ tiếp tục đi theo vòng tròn như vậy, luôn học cách chỉ để chống lại hành vi gần đây nhất của người chơi khác.
Thay vào đó, nếu chúng tôi giới thiệu sự đa dạng hơn trong các đối tác đào tạo bằng cách lấy mẫu từ một nhóm nhiều chính sách đã học, chúng tôi sẽ có nhiều khả năng hội tụ chiến lược tối ưu để lựa chọn các hành động một cách ngẫu nhiên; đó là chiến lược duy nhất có khả năng thực hiện tốt trước một nhóm các chính sách khác nhau.
(2) tại sao các đại lý riêng lẻ sẽ có nhiều hơn một chính sách (phụ) có thể - không nên có một chính sách tối ưu duy nhất cho mỗi đại lý?
Cuối cùng, chúng ta thường muốn hội tụ một chính sách tối ưu * duy nhất cho mọi đại lý, vâng. Nhưng thông thường, chúng ta chưa có điều đó ... đó là lý do tại sao chúng ta thực hiện Học tăng cường ngay từ đầu! Chúng tôi không biết chính sách tối ưu (hoặc thậm chí chỉ là tốt) trông như thế nào, trước tiên chúng tôi phải tìm hiểu chính sách đó. Trong quá trình học tập đó, nếu chúng ta muốn (mà chúng ta làm dựa trên lý do trong câu trả lời của tôi cho câu hỏi trước của bạn ở trên), chúng ta có thể dễ dàng học một tập hợp các chính sách khác nhau, thay vì học một chính sách duy nhất. Ví dụ, điều này có thể được thực hiện đơn giản bằng cách đào tạo từng chính sách phụ về một tập hợp con khác nhau của trải nghiệm mà chúng tôi thu thập.