UCB thực sự gần tối ưu trong trường hợp ngẫu nhiên (tối đa là yếu tố T log cho trò chơi vòng T) và tối đa khoảng cách về bất bình đẳng của Pinsker theo nghĩa phụ thuộc nhiều vấn đề hơn. Bài báo gần đây của Audibert và Bubeck đã loại bỏ sự phụ thuộc vào nhật ký này trong trường hợp xấu nhất, nhưng có một ràng buộc tồi tệ hơn trong trường hợp thuận lợi khi các nhánh khác nhau có phần thưởng tách biệt.
Nói chung, UCB là một ứng cử viên từ một nhóm thuật toán lớn hơn. Tại bất kỳ thời điểm nào trong trò chơi, bạn có thể nhìn vào tất cả các cánh tay không "không đủ tiêu chuẩn", nghĩa là có giới hạn độ tin cậy trên không nhỏ hơn độ tin cậy thấp hơn của một số cánh tay. Chọn dựa trên bất kỳ phân phối vũ khí đủ điều kiện như vậy tạo thành một chiến lược hợp lệ và nhận được sự hối tiếc tương tự cho các hằng số.
Theo kinh nghiệm, tôi không nghĩ đã có một đánh giá đáng kể về nhiều chiến lược khác nhau, nhưng tôi nghĩ UCB thường khá tốt.
Hầu hết các nghiên cứu gần đây đã tập trung vào việc mở rộng các vấn đề về tên cướp ngoài bối cảnh vũ trang K đơn giản với phần thưởng ngẫu nhiên, đến không gian hành động rất lớn (hoặc vô hạn), có hoặc không có thông tin bên lề, và dưới phản hồi ngẫu nhiên hoặc phản đối. Cũng đã có công việc trong các tình huống trong đó các tiêu chí hiệu suất là khác nhau (chẳng hạn như chỉ xác định cánh tay tốt nhất).