Thuật toán tối ưu để giải quyết vấn đề tên cướp vũ trang n?

Tôi đã đọc về một số thuật toán để giải quyết các vấn đề về kẻ cướp có vũ trang như -greedy, softmax và UCB1, nhưng tôi gặp một số khó khăn trong việc sắp xếp phương pháp nào là tốt nhất để giảm thiểu sự hối tiếc. $\epsilon$

Có một thuật toán tối ưu đã biết để giải quyết vấn đề tên cướp n-vũ trang không? Có một sự lựa chọn của thuật toán dường như thực hiện tốt nhất trong thực tế?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
nguồn

Có lẽ không có một giải pháp tối ưu được công nhận, vì nếu không thì trang Wikipedia sẽ nói như vậy và sẽ không có trang Sourceforge

— Henry

Đây không phải là trên Khoa học máy tính lý thuyết SE?

@mbq vì học tăng cường là một nhánh của học máy, tôi không nghĩ vậy;)

— steffen

@steffen Chắc chắn, cái tên có vẻ "tcsy".

@mbq Tôi không hiểu. "Tscy" có nghĩa là gì?

— steffen

Đây là hai tài liệu khảo sát tôi đã tìm thấy gần đây. Tôi chưa đọc chúng, nhưng tóm tắt nghe có vẻ hứa hẹn.

Joann `Vermorel và Mehryar Mohri: Thuật toán cướp đa vũ trang và đánh giá thực nghiệm (2005)

Từ tóm tắt:

Vấn đề tên cướp đa vũ trang cho một con bạc là quyết định cánh tay nào của máy đánh bạc K sẽ kéo để tối đa hóa phần thưởng của anh ta trong một loạt các thử nghiệm. Nhiều vấn đề học tập và tối ưu hóa trong thế giới thực có thể được mô hình hóa theo cách này. Một số chiến lược hoặc thuật toán đã được đề xuất như một giải pháp cho vấn đề này trong hai thập kỷ qua, nhưng, theo hiểu biết của chúng tôi, không có đánh giá chung về các thuật toán này.

Volodymyr Kuleshov và Doina Precup: Thuật toán cho vấn đề tên cướp đa vũ trang (2000) Từ bản tóm tắt:

Thứ hai, hiệu suất của hầu hết các thuật toán thay đổi đáng kể với các tham số của vấn đề tên cướp. Nghiên cứu của chúng tôi xác định cho mỗi thuật toán các cài đặt nơi nó hoạt động tốt và các cài đặt nơi nó thực hiện kém.

— steffen
nguồn