Vấn đề Warren Buffett


19

Đây là một bản tóm tắt của một vấn đề học tập / kẻ cướp trực tuyến mà tôi đã làm việc vào mùa hè. Tôi chưa từng thấy một vấn đề như thế này trước đây và nó có vẻ khá thú vị. Nếu bạn biết về bất kỳ công việc liên quan, tôi sẽ đánh giá cao tài liệu tham khảo.

Vấn đề Cài đặt là của những tên cướp đa vũ trang. Bạn có N cánh tay. Mỗi nhánh tôi có một phân phối xác suất không xác định nhưng cố định trên các phần thưởng có thể kiếm được bằng cách chơi nó. Để cụ thể, hãy giả sử rằng mỗi nhánh tôi trả phần thưởng $ 10 với xác suất p [i] và phần thưởng $ 0 khi có thăm dò. 1-p [i] .

Trong mỗi vòng t, bạn chọn một bộ S [t] vũ khí để chơi. Đối với mỗi nhánh bạn chọn, bạn phải trả một khoản phí $ 1 trở lên. Đối với mỗi nhánh được chọn, bạn thu thập phần thưởng được rút ra từ phân phối xác suất phần thưởng (chưa biết) của nhánh đó. Tất cả các phần thưởng được ghi có vào tài khoản ngân hàng của bạn và tất cả các khoản phí được khấu trừ từ tài khoản đó. Ngoài ra, bạn nhận được khoản tín dụng $ 1 khi bắt đầu mỗi lần lặp.

Vấn đề là xây dựng chính sách chọn một tập hợp vũ khí để chơi trong mỗi lần lặp để tối đa hóa lợi nhuận (nghĩa là thưởng cho phí chơi khi chơi) trong một khoảng thời gian đủ dài, phải chịu sự ràng buộc rằng nó phải duy trì số dư tài khoản không âm tất cả thời gian.

Tôi đã không xác định liệu phân phối phần thưởng cho mỗi cánh tay được chọn từ phân phối trước hay được chọn bởi một đối thủ. Cả hai lựa chọn đều có ý nghĩa. Công thức đối thủ hấp dẫn hơn đối với tôi, nhưng có lẽ khó tiến bộ hơn. Ở đây, đối thủ chọn một vectơ (D1, D2, .., DN) của các bản phân phối. Với các bản phân phối, chính sách cân bằng ngân sách tối ưu là chơi tất cả các vũ khí có phần thưởng dự kiến ​​lớn hơn 1 đô la. Đặt P là lợi nhuận mỗi bước của chính sách toàn tri tối ưu này. Tôi muốn chính sách trực tuyến của mình giảm thiểu sự hối tiếc (tức là mất lợi nhuận trong một cửa sổ thời gian T) viết chính sách toàn diện này.


Bạn có chắc chắn rằng chính sách tốt nhất là chơi tất cả các vũ khí có phần thưởng dự kiến ​​lớn hơn $ 1 trong mỗi vòng không? Nếu bạn có một ràng buộc nghiêm ngặt là bạn phải duy trì số dư tài khoản không âm ở mọi thời điểm, có thể có những vòng mà bạn thậm chí không được phép chơi.
Matthias

Vì vậy, bạn không biết xác suất phần thưởng, nhưng bạn có thể nói mức chi trả từ mỗi nhánh?
David Thornley

Bạn không biết xác suất và bạn không biết phần thưởng mong đợi. Tuy nhiên, một chính sách "tối ưu" toàn năng mà tôi muốn so sánh bản thân mình có thể chơi tất cả các vũ khí với phần thưởng lớn hơn 1 vì nó rất toàn diện.
Martin Pál

1
Tôi sẽ đoán một cách hoang dã rằng sau vòng bạn có thể có được thu nhập dự kiến ​​của mình trong một yếu tố không đổi của mức tối ưu, sau đó vấn đề dường như đã mất đi phần lớn tính cách khác thường của nó. Giới hạn dưới của Ω ( N ) xuất phát từ một trường hợp chỉ có một nhánh có tỷ lệ hoàn trả khác không. Tôi không thấy giới hạn trên ngay lập tức. Θ(N)Ω(N)
Warren Schudy

Sửa chữa: sau khi tròn, bạn có thể không thể đảm bảo có được trong một yếu tố không đổi của thu nhập tối ưu. Tuy nhiên, bạn có thể có được sự đảm bảo đó liên quan đến thu nhập có sẵn từ các vũ khí có lợi nhuận kỳ vọng ít nhất là 2 đô la. Θ(N)
Warren Schudy

Câu trả lời:


13

Tôi tưởng tượng có rất nhiều cách tiếp cận có thể cho vấn đề này (nhiều trong số đó tôi chắc chắn bạn đã xem xét) - đây là một vài ý tưởng / tài liệu tham khảo.

  • N
  • Ôi(2N/2T1/2)
  • Trong một bài báo sắp tới của NIPS 2010, Saten Kale, Rob Schapire và tôi xem xét trường hợp một người đóng vai một nhóm vũ khí cùng một lúc. Tuy nhiên, trong công việc của chúng tôi, kích thước của đá phiến là cố định. Bài viết này cũng xem xét một vấn đề tương tự. Một công việc tương tự khác xuất hiện trong ALT 2010. Có lẽ một số ý tưởng chuyển giao.
  • 2NÔi(NT)Ôi(2NT)

EDIT dưới đây:

01(n-1)/nTT(n-1)T/n

B02B1/B


Xin chào Lev, cảm ơn vì con trỏ. Tôi đồng ý rằng nếu tôi có ngân sách ban đầu không giới hạn, chơi N kẻ cướp một cánh tay song song sẽ giải quyết được vấn đề. Tuy nhiên, hạn chế về ngân sách giới thiệu khớp nối giữa các nhánh và làm cho mọi thứ trở nên thú vị. Đặc biệt, trong bước đầu tiên bạn chỉ có ngân sách để chơi một tay. Ở bước thứ hai, bạn có thể chơi 11 cánh tay hoặc chỉ 1 cánh tay, tùy thuộc vào việc bạn có gặp may mắn trong bước đầu tiên hay không. Vì vậy, điều quan trọng là sớm tìm ra một nhóm vũ khí có lợi nhuận mà sau đó bạn sử dụng thăm dò thêm.
Martin Pál

2
Tôi đã không nhận ra có một ngân sách ban đầu (bây giờ tôi đã hiểu phần "số dư không âm", nhưng có lẽ bạn có thể làm cho nó rõ ràng hơn trong câu hỏi?) - điều đó làm cho vấn đề trở nên thú vị hơn. Ngoài ra, phiên bản "theo ngữ cảnh" hoặc chuyên gia có thể thú vị để xem xét. Thật không may, tôi không biết bất kỳ tài liệu tham khảo có liên quan hơn cho vấn đề này.
Lev Reyzin

Nếu tôi hiểu đúng công thức vấn đề, bạn sẽ kiếm thêm $ 1 mỗi vòng. Martin, có lẽ bạn có thể làm rõ câu hỏi?
Jukka Suomela

Tôi nghĩ bạn kiếm được bất cứ thứ gì máy trả nếu bạn chơi nó và thắng và mất $ 1 bất cứ khi nào bạn quyết định chơi.
Lev Reyzin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.