Đây là một bản tóm tắt của một vấn đề học tập / kẻ cướp trực tuyến mà tôi đã làm việc vào mùa hè. Tôi chưa từng thấy một vấn đề như thế này trước đây và nó có vẻ khá thú vị. Nếu bạn biết về bất kỳ công việc liên quan, tôi sẽ đánh giá cao tài liệu tham khảo.
Vấn đề Cài đặt là của những tên cướp đa vũ trang. Bạn có N cánh tay. Mỗi nhánh tôi có một phân phối xác suất không xác định nhưng cố định trên các phần thưởng có thể kiếm được bằng cách chơi nó. Để cụ thể, hãy giả sử rằng mỗi nhánh tôi trả phần thưởng $ 10 với xác suất p [i] và phần thưởng $ 0 khi có thăm dò. 1-p [i] .
Trong mỗi vòng t, bạn chọn một bộ S [t] vũ khí để chơi. Đối với mỗi nhánh bạn chọn, bạn phải trả một khoản phí $ 1 trở lên. Đối với mỗi nhánh được chọn, bạn thu thập phần thưởng được rút ra từ phân phối xác suất phần thưởng (chưa biết) của nhánh đó. Tất cả các phần thưởng được ghi có vào tài khoản ngân hàng của bạn và tất cả các khoản phí được khấu trừ từ tài khoản đó. Ngoài ra, bạn nhận được khoản tín dụng $ 1 khi bắt đầu mỗi lần lặp.
Vấn đề là xây dựng chính sách chọn một tập hợp vũ khí để chơi trong mỗi lần lặp để tối đa hóa lợi nhuận (nghĩa là thưởng cho phí chơi khi chơi) trong một khoảng thời gian đủ dài, phải chịu sự ràng buộc rằng nó phải duy trì số dư tài khoản không âm tất cả thời gian.
Tôi đã không xác định liệu phân phối phần thưởng cho mỗi cánh tay được chọn từ phân phối trước hay được chọn bởi một đối thủ. Cả hai lựa chọn đều có ý nghĩa. Công thức đối thủ hấp dẫn hơn đối với tôi, nhưng có lẽ khó tiến bộ hơn. Ở đây, đối thủ chọn một vectơ (D1, D2, .., DN) của các bản phân phối. Với các bản phân phối, chính sách cân bằng ngân sách tối ưu là chơi tất cả các vũ khí có phần thưởng dự kiến lớn hơn 1 đô la. Đặt P là lợi nhuận mỗi bước của chính sách toàn tri tối ưu này. Tôi muốn chính sách trực tuyến của mình giảm thiểu sự hối tiếc (tức là mất lợi nhuận trong một cửa sổ thời gian T) viết chính sách toàn diện này.