Học tập tăng cường hợp tác


10

Tôi đã có một triển khai cho một đại lý duy nhất làm việc về một vấn đề giá động với mục tiêu tối đa hóa doanh thu. Tuy nhiên, vấn đề mà tôi đang làm việc liên quan đến một số sản phẩm khác nhau thay thế cho nhau, do đó, việc định giá tất cả chúng với những người học độc lập dường như không chính xác, bởi vì giá của một sản phẩm này ảnh hưởng đến phần thưởng của sản phẩm kia. Mục tiêu sẽ là tự động định giá tất cả chúng để tối đa hóa tổng của từng doanh thu.Q(λ)

Tôi đã thực hiện một số nghiên cứu để cố gắng tìm ra thứ gì đó áp dụng việc học tăng cường theo cách này, nhưng nhiều triển khai đa tác nhân tôi đã thấy tập trung vào các trò chơi cạnh tranh hơn là hợp tác, hoặc họ cho rằng kiến ​​thức không đầy đủ về các tác nhân khác (tôi sẽ hoàn thành kiến thức của từng tác nhân trong kịch bản này). Có bất kỳ ứng dụng được nghiên cứu / tài liệu tốt về học tập hợp tác theo cách này?

Câu trả lời:



0

Nói chung, những gì bạn đang cố gắng đạt được là hiệu quả Pareto.

Để làm cho nó hợp tác, bạn cần xác định một chức năng phần thưởng duy nhất được chia sẻ bởi tất cả người chơi (nó có thể là một chức năng kết hợp theo một cách nào đó chức năng phần thưởng riêng lẻ).

Bằng cách nào đó, bạn cần cân nhắc phần thưởng mà bạn có được từ một sản phẩm đối với các sản phẩm khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.