Thompson Sampling trong điều khoản của giáo dân là gì?


14

Tôi không thể hiểu được Lấy mẫu của Thompson và cách thức hoạt động của nó. Tôi đã đọc về Multi Arm Bandit và sau khi đọc Thuật toán giới hạn niềm tin trên, nhiều văn bản cho rằng Thompson Sampling hoạt động tốt hơn UCB. Thompson Sampling là gì, theo cách nói của giáo dân hay đơn giản?

Hãy cung cấp các bài viết tham khảo để hiểu thêm.

Câu trả lời:


9

Tôi sẽ cố gắng đưa ra một lời giải thích mà không có toán học. Một phần của câu trả lời này được lặp lại từ một số điểm tôi đã trả lời cho một câu hỏi khác về các vấn đề MAB .


Sự đánh đổi chiến lược trong các vấn đề về băng cướp nhiều tay: Trong các vấn đề về băng cướp nhiều tay , con bạc chơi một "tên cướp" mỗi vòng và cố gắng tối đa hóa tổng lợi nhuận dự kiến ​​của mình trong một số vòng nhất định. Sự trở lại dự kiến ​​của mỗi tên cướp được mô tả bởi một số tham số chưa biết trong vấn đề và vì vậy khi chúng tôi quan sát nhiều kết quả hơn trong mỗi vòng, chúng tôi nhận được nhiều thông tin hơn về các tham số chưa biết này và do đó, về sự trở lại dự kiến ​​của từng tên cướp . Trong mỗi vòng chơi (trừ lần cuối cùng), vấn đề MAB liên quan đến sự đánh đổi chiến lược của con bạc giữa hai mục tiêu:

  • Phần thưởng ngay lập tức: Trong mỗi vòng, anh ta muốn chọn một bản phân phối mang lại cho anh ta phần thưởng được mong đợi cao trong vòng này, điều này đòi hỏi sự ưu tiên cho các bản phân phối mà anh ta (hiện tại) có để có phần thưởng trung bình cao;

  • Phần thưởng trong tương lai (bị ảnh hưởng bởi thông tin thu được): Mặt khác, anh ta muốn tinh chỉnh kiến ​​thức của mình về phần thưởng dự kiến ​​thực sự bằng cách có thêm thông tin về các bản phân phối (đặc biệt là những phần mà anh ta đã không chơi nhiều như những người khác), để anh ta có thể cải thiện sự lựa chọn của mình trong các vòng trong tương lai.

Tầm quan trọng tương đối của hai điều này sẽ quyết định sự đánh đổi và tầm quan trọng tương đối này bị ảnh hưởng bởi một số yếu tố. Ví dụ, nếu chỉ có một số lượng nhỏ các vòng còn lại trong vấn đề thì suy luận cho các thử nghiệm trong tương lai là tương đối ít có giá trị, trong khi nếu có một số lượng lớn các vòng còn lại thì suy luận về phần thưởng trong tương lai có giá trị hơn. Vì vậy, con bạc cần xem xét mức độ anh ta muốn tập trung vào tối đa hóa phần thưởng ngay lập tức trong vòng hiện tại và mức độ anh ta muốn đi chệch khỏi điều này, để tìm hiểu thêm về các thông số chưa biết xác định phần thưởng dự kiến ​​của mỗi tên cướp.


Lấy mẫu của Thompson: Ý tưởng cơ bản của lấy mẫu của Thompson là trong mỗi vòng, chúng tôi lấy kiến ​​thức hiện có về máy móc, ở dạng niềm tin sau về các tham số chưa biết và chúng tôi "lấy mẫu" các tham số từ phân phối sau này. Tham số được lấy mẫu này mang lại một bộ phần thưởng dự kiến ​​cho mỗi máy và bây giờ chúng tôi đặt cược vào máy có lợi nhuận kỳ vọng cao nhất, theo thông số được lấy mẫu đó.

Prima facie , sơ đồ lấy mẫu của Thompson dường như liên quan đến nỗ lực tối đa hóa lợi nhuận kỳ vọng ngay lập tức trong mỗi vòng (vì nó liên quan đến bước tối đa hóa này sau khi lấy mẫu tham số). Tuy nhiên, vì nó liên quan đến việc lấy mẫu ngẫu nhiên của tham số từ phía sau, nên sơ đồ liên quan đến một ẩnbiến thể tối đa hóa phần thưởng hiện tại, so với tìm kiếm thêm thông tin. Hầu hết thời gian chúng ta sẽ nhận được một "mẫu" tham số nằm ở đâu đó trong phần chính của phần sau, và sự lựa chọn của máy sẽ gần như tối đa hóa phần thưởng ngay lập tức. Tuy nhiên, đôi khi chúng tôi sẽ lấy mẫu ngẫu nhiên một giá trị tham số nằm ở phần đuôi của phân phối sau và trong trường hợp đó, chúng tôi sẽ chọn một máy không tối đa hóa phần thưởng ngay lập tức - nghĩa là, điều này sẽ tạo thành nhiều hơn một "tìm kiếm "Để hỗ trợ cho các phần thưởng trong tương lai.

Chương trình Thompson cũng có một tài sản tốt mà chúng ta có xu hướng giảm "tìm kiếm" khi chúng ta có thêm thông tin và điều này bắt chước sự đánh đổi chiến lược mong muốn trong vấn đề, nơi chúng ta muốn tập trung ít hơn vào các tìm kiếm khi chúng ta có được nhiều thông tin hơn. Khi chúng ta chơi càng nhiều vòng và càng ngày càng có nhiều dữ liệu, thì phần sau sẽ hội tụ gần hơn với các giá trị tham số thực và do đó, "lấy mẫu" ngẫu nhiên trong sơ đồ Thompson trở nên chặt chẽ hơn xung quanh các giá trị tham số sẽ dẫn đến tối đa hóa thưởng ngay. Do đó, có một xu hướng ngầm định của sơ đồ này là "định hướng tìm kiếm" sớm hơn với ít thông tin và ít "định hướng tìm kiếm" sau này khi có nhiều dữ liệu.

Bây giờ, đã nói điều này, một nhược điểm rõ ràng của sơ đồ lấy mẫu của Thompson là nó không tính đến số vòng còn lại trong bài toán MAB. Sơ đồ này đôi khi được xây dựng trên cơ sở của một trò chơi với các vòng vô hạn, và trong trường hợp này không phải là một vấn đề. Tuy nhiên, trong các vấn đề MAB với các vòng hữu hạn, tốt nhất là tính đến số vòng còn lại để giảm "tìm kiếm" khi số vòng trong tương lai giảm. . đó rõ ràng là tối ưu phụ trong một số trường hợp nhất định.


1
Tôi ước tôi có thể đưa ra phản hồi này nhiều ngón tay cái lên. Tôi có thể sẽ thêm cách tôi sẽ cập nhật các phần sau - ví dụ: nếu phần sau được biểu diễn dưới dạng phân phối bình thường - các bản cập nhật cho độ lệch trung bình và độ lệch chuẩn của phần sau được tính như thế nào. Tôi nói điều này bởi vì tôi không biết bản thân mình
Mellow

5

Tôi sẽ cho nó một shot và tôi hy vọng bạn thích nó! Có một số công thức dưới đây có thể làm bạn sợ. Tôi không hy vọng như vậy, vì tôi sẽ cố hết sức để giải thích chúng theo cách đơn giản nhất mà tôi có thể.

Đây là hai công thức:

  • P(r|θ,một,x)
  • P(θ|D)

TL; DR

Lấy mẫu cho phép bạn

  1. Chọn một tham số mô hình ngẫu nhiên từ tất cả các tham số mô hình mà bạn nghĩ là có thể.
  2. Hành động một lần theo tham số mô hình cụ thể đó.
  3. Quan sát phần thưởng bạn nhận được với tham số mô hình cụ thể đó.
  4. Học hỏi từ kinh nghiệm mới này và cập nhật niềm tin của bạn về các tham số mô hình có thể.

Khả năng ??

rmộtx

Thế còn vòng tròn kỳ lạ đó thì sao ??

θθθ, bạn biết bối cảnh + hành động liên quan đến phần thưởng như thế nào và thật dễ dàng để hành động tối ưu.

Vậy làm thế nào để chúng ta biết các tham số mô hình này để tôi có thể nhận được phần thưởng tối đa ??

θθ

Bạn chưa nói gì về hậu thế này

θθ

Bây giờ Thomson Sampling đề nghị làm gì với tất cả những điều không chắc chắn này ??

Thomson Sampling gợi ý một điều rất đơn giản: chỉ cần chọn một tham số mô hình ngẫu nhiên từ phía sau của bạn, thực hiện một hành động và quan sát những gì xảy ra. Ví dụ, khi bạn chưa bao giờ ở bên ngoài trước đây, thông số không vui khi mưa trên đầu có thể là bất cứ điều gì. Vì vậy, chúng tôi chỉ chọn một, chúng tôi cho rằng chúng tôi thực sự không vui khi mưa rơi trên đầu. Chúng tôi thấy rằng trời đang mưa (bối cảnh) vì vậy chúng tôi lấy một chiếc ô (hành động) vì tham số mô hình của chúng tôi cho chúng tôi biết rằng đây là cách chúng tôi có thể nhận được phần thưởng tối đa. Và thực sự, bạn quan sát thấy bạn hơi gắt gỏng khi đi dưới mưa bằng một chiếc ô nhưng không thực sự không vui. Chúng ta học được điều này rằng mưa + ô là cục cằn. Lần sau trời mưa bạn lại chọn một niềm tin ngẫu nhiên về những gì xảy ra khi mưa rơi trên đầu bạn. Lần này có thể là nó không làm phiền bạn chút nào. Tuy nhiên, một khi bạn đang đi được nửa đường đến đích thì bạn đang ướt sũng và bạn biết rằng mưa mà không có ô thực sự rất tệ. Điều này làm giảm sự không chắc chắn của bạn về sự bất hạnh khi mưa trên đầu, bởi vì bây giờ bạn biết nó có thể cao.

Điều này nghe có vẻ đơn giản !!

Đúng, nó không phức tạp. Phần khó là lấy mẫu từ một tham số mô hình sau. Nhận và duy trì phân phối trên tất cả các tham số mô hình của bạn, điều đó cũng phù hợp với vấn đề cụ thể của bạn là khó khăn. Nhưng ... nó chắc chắn là có thể làm được :).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.