Kẻ cướp đa vũ trang để phân phối phần thưởng chung

Tôi đang làm việc với một vấn đề tên cướp đa vũ trang nơi chúng tôi không có bất kỳ thông tin nào về việc phân phối phần thưởng.

Tôi đã tìm thấy nhiều bài báo đảm bảo giới hạn hối tiếc cho một bản phân phối có ràng buộc đã biết và cho các bản phân phối chung có hỗ trợ trong [0,1].

Tôi muốn tìm hiểu xem có cách nào để thực hiện tốt trong môi trường mà việc phân phối phần thưởng không có bất kỳ đảm bảo nào về sự hỗ trợ của nó hay không. Tôi đang cố gắng tính giới hạn dung sai không tham số và sử dụng số đó để mở rộng phân phối phần thưởng để tôi có thể sử dụng thuật toán 2 được chỉ định trên bài viết này ( http://jmlr.org/proceedings/ con / v23 / agalal12 / agalal12.pdf ). Có ai nghĩ rằng phương pháp này sẽ làm việc?

Nếu không, bất cứ ai có thể chỉ cho tôi đến đúng chỗ?

Cảm ơn nhiều!

references multiarmed-bandit

— khách mời
nguồn

Việc nghiên cứu các thuật toán MAB gắn chặt với các đảm bảo hiệu suất lý thuyết. Thật vậy, sự trỗi dậy của sự quan tâm vào các thuật toán (nhớ lại Thompson lấy mẫu đã được đề xuất vào những năm 30) chỉ thực sự xảy ra kể từ minh giấy 2002 Auer của vọt hối tiếc cho UCB khác nhau và -greedy thuật toán. Như vậy, có rất ít sự quan tâm đến các vấn đề trong đó phân phối phần thưởng không bị ràng buộc vì gần như không có gì có thể nói về mặt lý thuyết. $\mathcal{O}(\log(T))$ $\epsilon$

Ngay cả thuật toán lấy mẫu đơn giản của Thompson mà bạn đề cập cũng yêu cầu phần thưởng phân phối của Bernoulli, và thậm chí phải mất 80 năm để chứng minh sự hối tiếc logarit bị ràng buộc!

Tuy nhiên, trong thực tế, trong trường hợp bạn không biết phân phối phần thưởng nhất định, bạn có thể chỉ cần chia tỷ lệ thành bằng cách chia cho số lớn và nếu bạn quan sát phần thưởng trên chỉ cần nhân đôi giá trị, . Không có đảm bảo hối tiếc khi sử dụng phương pháp này mặc dù, nhưng nó thường hoạt động khá tốt. $[0,1]$ $S$ $S$ $S:=2S$

Ngoài ra, thuật toán lấy mẫu của Thompson mà bạn đề cập cần dùng thử Bernoulli, vì vậy bạn không thể sử dụng phần thưởng liên tục tùy ý. Bạn có thể phù hợp với phân phối sau Gaussian thay vì Beta, nhưng điều này hơi nhạy cảm với lựa chọn trước của bạn, vì vậy bạn có thể muốn đặt nó ở vị trí rất phẳng. Nếu bạn không muốn chứng minh bất cứ điều gì về việc triển khai của mình thì điều này có thể sẽ hoạt động khá tốt.

— fairidox
nguồn

Cảm ơn nhiều về sự đáp trả! Tôi rất trân trọng điều này! Tôi đã có một câu hỏi mặc dù. Tôi nghĩ thuật toán 2 trên giấy (ở đầu trang 39.4) tôi đã đề cập không yêu cầu bất cứ điều gì về phân phối phần thưởng NHƯNG thực tế là sự hỗ trợ của nó nằm trong [0,1]. Có lẽ bạn đang nhìn vào thuật toán 1?

— khách

Vâng, thật tuyệt, một mẹo khá thú vị để chuyển đổi các giá trị thực sang các mẫu Bernoulli, cảm ơn vì đã chỉ ra rằng chi tiết đã thoát khỏi tôi. Trong mọi trường hợp, như bạn nói, bạn vẫn cần các biến bị ràng buộc, bạn có thể làm điều này với thủ thuật nhân đôi giá rẻ mà tôi đã đề cập và sử dụng phiên bản lấy mẫu của Thompson này. Nhưng bạn có thể tốt hơn trong việc xây dựng một phương thức sử dụng một hậu tố Gaussian.

— fairidox

Tôi sẽ xem xét thêm về phương pháp sau Gaussian, nhưng ý của bạn là "phẳng" theo nghĩa của Gaussian là gì? Tôi sẽ cho rằng điều đó sẽ tương ứng với một cái gì đó như Beta (1,1) (đồng phục) trước đó, đúng không?

— khách

đúng, nhưng rõ ràng bạn không thể có đồng phục trước một miền không giới hạn. Vì vậy, nếu bạn có một mô hình sau Gaussian, bạn có thể sẽ có một Gaussian trước, vì vậy bạn thường muốn có nó là "phẳng" hoặc không chính xác nhất có thể. Điều này thường có nghĩa là làm cho phương sai lớn như bạn có thể đứng. Tôi không phải là chuyên gia nhưng có cả một lĩnh vực nghiên cứu về cách xây dựng các linh mục không thông tin và có khả năng không phù hợp mà bạn có thể muốn xem xét. Ngoài ra, nếu bạn có phần thưởng hoàn toàn tích cực, bạn có thể muốn xem xét một mô hình khác.

— fairidox