Thuật toán kẻ cướp tốt nhất?

27

Thuật toán tên cướp nổi tiếng nhất là giới hạn tin cậy trên (UCB) đã phổ biến loại thuật toán này. Kể từ đó tôi cho rằng bây giờ có các thuật toán tốt hơn. Thuật toán tốt nhất hiện nay (về hiệu suất thực nghiệm hoặc giới hạn lý thuyết) là gì? Là thuật toán này tối ưu trong một số ý nghĩa?

— Nữ hoàng Kaznatcheev
nguồn

25

Một bài báo từ NIPS 2011 ("Một đánh giá thực nghiệm về Lấy mẫu của Thompson") cho thấy, trong các thí nghiệm, rằng Lấy mẫu của Thompson đánh bại UCB. UCB dựa trên việc chọn đòn bẩy hứa hẹn phần thưởng cao nhất theo các giả định lạc quan (nghĩa là phương sai của ước tính của bạn về phần thưởng dự kiến là cao, do đó bạn kéo các đòn bẩy mà bạn không biết rõ). Thay vào đó, Thompson Sampling hoàn toàn là Bayesian: nó tạo ra một cấu hình tên cướp (tức là một vectơ của phần thưởng dự kiến) từ phân phối sau, và sau đó hoạt động như thể đây là cấu hình thực (nghĩa là nó kéo đòn bẩy với phần thưởng dự kiến cao nhất).

Quy tắc kiểm soát Bayes (" Nguyên tắc Entropy tương đối tối thiểu cho việc học và hành động ", JAIR), một khái quát của Lấy mẫu của Thompson, xuất phát từ Lấy mẫu của Thompson từ các nguyên tắc lý thuyết thông tin và quan hệ nhân quả. Cụ thể, người ta thấy rằng Quy tắc kiểm soát Bayes là chiến lược tối ưu khi bạn muốn giảm thiểu KL giữa chiến lược của mình và chiến lược tối ưu (chưa biết) và nếu bạn tính đến các ràng buộc nguyên nhân. Lý do tại sao điều này quan trọng là bởi vì điều này có thể được xem như là một phần mở rộng của suy luận Bayes về hành động: Suy luận Bayes có thể được hiển thị là chiến lược dự đoán tối ưu khi tiêu chí hiệu suất của bạn là KL giữa công cụ ước tính của bạn và phân phối đúng (chưa biết).

— Pedro A. Ortega
nguồn

16

UCB thực sự gần tối ưu trong trường hợp ngẫu nhiên (tối đa là yếu tố T log cho trò chơi vòng T) và tối đa khoảng cách về bất bình đẳng của Pinsker theo nghĩa phụ thuộc nhiều vấn đề hơn. Bài báo gần đây của Audibert và Bubeck đã loại bỏ sự phụ thuộc vào nhật ký này trong trường hợp xấu nhất, nhưng có một ràng buộc tồi tệ hơn trong trường hợp thuận lợi khi các nhánh khác nhau có phần thưởng tách biệt.

Nói chung, UCB là một ứng cử viên từ một nhóm thuật toán lớn hơn. Tại bất kỳ thời điểm nào trong trò chơi, bạn có thể nhìn vào tất cả các cánh tay không "không đủ tiêu chuẩn", nghĩa là có giới hạn độ tin cậy trên không nhỏ hơn độ tin cậy thấp hơn của một số cánh tay. Chọn dựa trên bất kỳ phân phối vũ khí đủ điều kiện như vậy tạo thành một chiến lược hợp lệ và nhận được sự hối tiếc tương tự cho các hằng số.

Theo kinh nghiệm, tôi không nghĩ đã có một đánh giá đáng kể về nhiều chiến lược khác nhau, nhưng tôi nghĩ UCB thường khá tốt.

Hầu hết các nghiên cứu gần đây đã tập trung vào việc mở rộng các vấn đề về tên cướp ngoài bối cảnh vũ trang K đơn giản với phần thưởng ngẫu nhiên, đến không gian hành động rất lớn (hoặc vô hạn), có hoặc không có thông tin bên lề, và dưới phản hồi ngẫu nhiên hoặc phản đối. Cũng đã có công việc trong các tình huống trong đó các tiêu chí hiệu suất là khác nhau (chẳng hạn như chỉ xác định cánh tay tốt nhất).

4

Tình trạng hiện tại của nghệ thuật có thể được tóm tắt như thế này:

$R_T = O(\frac{K \log T}{\Delta})$
$\tilde{R}_T = O(\sqrt{T K \log K})$
theo ngữ cảnh: nó phức tạp

$T$ $K$ $\Delta$

— oDDsKooL
nguồn