Tôi sẽ cố gắng đưa ra một lời giải thích mà không có toán học. Một phần của câu trả lời này được lặp lại từ một số điểm tôi đã trả lời cho một câu hỏi khác về các vấn đề MAB .
Sự đánh đổi chiến lược trong các vấn đề về băng cướp nhiều tay: Trong các vấn đề về băng cướp nhiều tay , con bạc chơi một "tên cướp" mỗi vòng và cố gắng tối đa hóa tổng lợi nhuận dự kiến của mình trong một số vòng nhất định. Sự trở lại dự kiến của mỗi tên cướp được mô tả bởi một số tham số chưa biết trong vấn đề và vì vậy khi chúng tôi quan sát nhiều kết quả hơn trong mỗi vòng, chúng tôi nhận được nhiều thông tin hơn về các tham số chưa biết này và do đó, về sự trở lại dự kiến của từng tên cướp . Trong mỗi vòng chơi (trừ lần cuối cùng), vấn đề MAB liên quan đến sự đánh đổi chiến lược của con bạc giữa hai mục tiêu:
Phần thưởng ngay lập tức: Trong mỗi vòng, anh ta muốn chọn một bản phân phối mang lại cho anh ta phần thưởng được mong đợi cao trong vòng này, điều này đòi hỏi sự ưu tiên cho các bản phân phối mà anh ta (hiện tại) có để có phần thưởng trung bình cao;
Phần thưởng trong tương lai (bị ảnh hưởng bởi thông tin thu được): Mặt khác, anh ta muốn tinh chỉnh kiến thức của mình về phần thưởng dự kiến thực sự bằng cách có thêm thông tin về các bản phân phối (đặc biệt là những phần mà anh ta đã không chơi nhiều như những người khác), để anh ta có thể cải thiện sự lựa chọn của mình trong các vòng trong tương lai.
Tầm quan trọng tương đối của hai điều này sẽ quyết định sự đánh đổi và tầm quan trọng tương đối này bị ảnh hưởng bởi một số yếu tố. Ví dụ, nếu chỉ có một số lượng nhỏ các vòng còn lại trong vấn đề thì suy luận cho các thử nghiệm trong tương lai là tương đối ít có giá trị, trong khi nếu có một số lượng lớn các vòng còn lại thì suy luận về phần thưởng trong tương lai có giá trị hơn. Vì vậy, con bạc cần xem xét mức độ anh ta muốn tập trung vào tối đa hóa phần thưởng ngay lập tức trong vòng hiện tại và mức độ anh ta muốn đi chệch khỏi điều này, để tìm hiểu thêm về các thông số chưa biết xác định phần thưởng dự kiến của mỗi tên cướp.
Lấy mẫu của Thompson: Ý tưởng cơ bản của lấy mẫu của Thompson là trong mỗi vòng, chúng tôi lấy kiến thức hiện có về máy móc, ở dạng niềm tin sau về các tham số chưa biết và chúng tôi "lấy mẫu" các tham số từ phân phối sau này. Tham số được lấy mẫu này mang lại một bộ phần thưởng dự kiến cho mỗi máy và bây giờ chúng tôi đặt cược vào máy có lợi nhuận kỳ vọng cao nhất, theo thông số được lấy mẫu đó.
Prima facie , sơ đồ lấy mẫu của Thompson dường như liên quan đến nỗ lực tối đa hóa lợi nhuận kỳ vọng ngay lập tức trong mỗi vòng (vì nó liên quan đến bước tối đa hóa này sau khi lấy mẫu tham số). Tuy nhiên, vì nó liên quan đến việc lấy mẫu ngẫu nhiên của tham số từ phía sau, nên sơ đồ liên quan đến một ẩnbiến thể tối đa hóa phần thưởng hiện tại, so với tìm kiếm thêm thông tin. Hầu hết thời gian chúng ta sẽ nhận được một "mẫu" tham số nằm ở đâu đó trong phần chính của phần sau, và sự lựa chọn của máy sẽ gần như tối đa hóa phần thưởng ngay lập tức. Tuy nhiên, đôi khi chúng tôi sẽ lấy mẫu ngẫu nhiên một giá trị tham số nằm ở phần đuôi của phân phối sau và trong trường hợp đó, chúng tôi sẽ chọn một máy không tối đa hóa phần thưởng ngay lập tức - nghĩa là, điều này sẽ tạo thành nhiều hơn một "tìm kiếm "Để hỗ trợ cho các phần thưởng trong tương lai.
Chương trình Thompson cũng có một tài sản tốt mà chúng ta có xu hướng giảm "tìm kiếm" khi chúng ta có thêm thông tin và điều này bắt chước sự đánh đổi chiến lược mong muốn trong vấn đề, nơi chúng ta muốn tập trung ít hơn vào các tìm kiếm khi chúng ta có được nhiều thông tin hơn. Khi chúng ta chơi càng nhiều vòng và càng ngày càng có nhiều dữ liệu, thì phần sau sẽ hội tụ gần hơn với các giá trị tham số thực và do đó, "lấy mẫu" ngẫu nhiên trong sơ đồ Thompson trở nên chặt chẽ hơn xung quanh các giá trị tham số sẽ dẫn đến tối đa hóa thưởng ngay. Do đó, có một xu hướng ngầm định của sơ đồ này là "định hướng tìm kiếm" sớm hơn với ít thông tin và ít "định hướng tìm kiếm" sau này khi có nhiều dữ liệu.
Bây giờ, đã nói điều này, một nhược điểm rõ ràng của sơ đồ lấy mẫu của Thompson là nó không tính đến số vòng còn lại trong bài toán MAB. Sơ đồ này đôi khi được xây dựng trên cơ sở của một trò chơi với các vòng vô hạn, và trong trường hợp này không phải là một vấn đề. Tuy nhiên, trong các vấn đề MAB với các vòng hữu hạn, tốt nhất là tính đến số vòng còn lại để giảm "tìm kiếm" khi số vòng trong tương lai giảm. . đó rõ ràng là tối ưu phụ trong một số trường hợp nhất định.