Lật đồng xu, quy trình quyết định và giá trị của thông tin


14

Hãy tưởng tượng thiết lập sau: Bạn có 2 đồng xu, đồng xu A được đảm bảo công bằng và đồng xu B có thể có hoặc không công bằng. Bạn được yêu cầu thực hiện 100 lần lật đồng xu, và mục tiêu của bạn là tối đa hóa số lượng người đứng đầu .

Thông tin trước đây của bạn về coin B là nó đã được lật 3 lần và mang lại 1 đầu. Nếu quy tắc quyết định của bạn chỉ đơn giản dựa trên việc so sánh xác suất dự kiến ​​của người đứng đầu trong 2 đồng tiền, bạn sẽ lật đồng xu 100 lần và được thực hiện với nó. Điều này đúng ngay cả khi sử dụng các ước tính Bayes hợp lý (phương tiện sau) về xác suất, vì bạn không có lý do gì để tin rằng đồng B mang lại nhiều đầu hơn.

Tuy nhiên, điều gì sẽ xảy ra nếu đồng xu B thực sự thiên vị trong đầu? Chắc chắn "những người đứng đầu tiềm năng" mà bạn từ bỏ bằng cách lật đồng xu B một vài lần (và do đó có được thông tin về các thuộc tính thống kê của nó) sẽ có giá trị theo một cách nào đó và do đó sẽ ảnh hưởng đến quyết định của bạn. Làm thế nào "giá trị thông tin" này có thể được mô tả bằng toán học?

Câu hỏi: Làm thế nào để bạn xây dựng một quy tắc quyết định tối ưu về mặt toán học trong kịch bản này?


Tôi đang xóa câu trả lời của tôi. Quá nhiều người phàn nàn rằng tôi rõ ràng đã sử dụng trước (đó là tiêu chuẩn trong tài liệu). Thưởng thức câu trả lời không chính xác của Cam Davidson Pilon trong đó anh ta cũng giả sử trước (nhưng không có ai phản đối) và tuyên bố là phương pháp tối ưu là 1.035 dưới mức tối ưu.
Douglas Zare 15/03/13

Whoah, khi nào tất cả điều này xảy ra? BTW, tôi đồng ý với Douglas rằng sử dụng trước là tốt. Tôi cũng rút lại khẳng định lạc quan của mình.
Cam.Davidson.Pilon

Tôi chấp nhận giải pháp của Cam vì nó giúp tôi rất nhiều. Tôi đồng ý rằng nó không tối ưu, nhưng trừ khi ai đó có thể chỉ ra một giải pháp tối ưu chung có thể dễ dàng tính toán, đó là cách tốt nhất.
M. Cypher

Tại sao nó tệ đến mức tôi đã sử dụng một từ trước (mà tôi đã nêu rõ) để trả lời một câu hỏi được gắn thẻ "bayesian?"
Douglas Zare 15/03/13

1
Tôi đã không chỉ trích việc sử dụng trước. Tôi đã đề cập như một sidenote rằng có thể có nhiều linh mục phù hợp hơn so với đồng phục (ví dụ của Jeffrey), nhưng điều này chỉ liên quan đến câu hỏi. Giải pháp của bạn là hoàn toàn tốt, chỉ là không hữu ích với tôi vì nó không khái quát dễ dàng.
M. Cypher

Câu trả lời:


7

Tên cướp đa vũ trang

Đây là một trường hợp cụ thể của một vấn đề tên cướp đa vũ trang . Tôi nói một trường hợp cụ thể vì nhìn chung chúng ta không biết bất kỳ xác suất nào của người đứng đầu (trong trường hợp này chúng ta biết một trong những đồng tiền có xác suất 0,5).

Vấn đề bạn nêu ra được gọi là vấn đề nan giải thăm dò và khai thác : bạn có khám phá các lựa chọn khác, hoặc bạn có gắn bó với những gì bạn nghĩ là tốt nhất. Có một giải pháp tối ưu ngay lập tức giả sử bạn biết tất cả các xác suất : chỉ cần chọn đồng tiền có xác suất chiến thắng cao nhất. Vấn đề, như bạn đã ám chỉ, là chúng tôi không chắc chắn về xác suất thực sự là gì.

Có rất nhiều tài liệu về chủ đề này, và có nhiều thuật toán xác định, nhưng vì bạn đã gắn thẻ Bayesian này, tôi muốn nói với bạn về giải pháp yêu thích cá nhân của tôi: Kẻ cướp Bayes !

Giải pháp tên cướp Baysian

Cách tiếp cận Bayes cho vấn đề này là rất tự nhiên. Chúng tôi quan tâm đến việc trả lời " xác suất mà đồng X là tốt hơn so với hai?".

Một tiên nghiệm , giả sử chúng tôi đã quan sát thấy không có đồng xu nào bị lật, chúng tôi không biết xác suất của những người đứng đầu B có thể là gì, biểu thị chưa biết này . Vì vậy, chúng ta nên chỉ định một phân phối thống nhất trước cho xác suất chưa biết này. Ngoài ra, trước (và sau) của chúng tôi cho đồng tiền A tập trung hoàn toàn ở mức 1/2.pB

Như bạn đã nói, chúng tôi quan sát 2 đuôi và 1 đầu từ đồng xu B, chúng tôi cần cập nhật phân phối sau. Giả sử đồng phục trước và lật là Bernoulli coin-flips, hậu thế của chúng tôi là . So sánh các bản phân phối sau hoặc A và B bây giờ:Betmột(1+1,1+2)

nhập mô tả hình ảnh ở đây

Tìm kiếm một chiến lược tối ưu

Bây giờ chúng ta đã có hậu thế, phải làm sao? Chúng tôi quan tâm đến việc trả lời "Đồng xu xác suất B là tốt nhất của hai loại nào" (Hãy nhớ từ quan điểm Bayes của chúng tôi, mặc dù có một câu trả lời chắc chắn về cái nào tốt hơn, chúng tôi chỉ có thể nói theo xác suất):

wB= =P(pb>0,5)

Các giải pháp xấp xỉ tối ưu là chọn B với xác suất và A với xác suất 1 - w B . Đề án này tối đa hóa lợi nhuận dự kiến. w B có thể được tính bằng số, vì chúng ta biết phân phối sau, nhưng một cách thú vị là như sau:wB1-wBwB

1. Sample P_B from the posterior of coin B
2. If P_B > 0.5, choose coin B, else choose coin A.

Đề án này cũng tự cập nhật. Khi chúng tôi quan sát kết quả của việc chọn đồng xu B, chúng tôi cập nhật thông tin sau với thông tin mới này và chọn lại. Bằng cách này, nếu coin B thực sự xấu, chúng tôi sẽ chọn nó ít hơn và trên thực tế coin B thực sự tốt, chúng tôi sẽ chọn nó thường xuyên hơn. Tất nhiên, chúng tôi là người Bayes, do đó chúng tôi không bao giờ có thể hoàn toàn chắc chắn rằng tiền B tốt hơn. Chọn xác suất như thế này là giải pháp tự nhiên nhất cho tình thế tiến thoái lưỡng nan thăm dò.

Đây là một ví dụ cụ thể của Lấy mẫu Thompson . Thông tin thêm và các ứng dụng tuyệt vời cho quảng cáo trực tuyến, có thể được tìm thấy trong tài liệu nghiên cứu của Googletài liệu nghiên cứu của Yahoo . Tôi yêu những thứ này!


2
Tôi không nghĩ rằng chiến lược đó là chính xác. Tôi không nghĩ bạn nên chọn lựa chọn A hay B một cách xác suất.
Douglas Zare 15/03/13

2
Tôi không nghĩ rằng bài báo nói những gì bạn nghĩ. Nếu bạn không đồng ý, vui lòng tính toán số lượng người đứng đầu dự kiến ​​bạn sẽ có được theo chiến lược đó.
Douglas Zare 15/03/13

5
Tôi không nghĩ rằng điều này gần với tối ưu. Nó gợi ý rằng trong lần lật đầu tiên, bạn đã chọn B với xác suất 1/2. Cần phải rõ ràng rằng bạn không nhận được thông tin nếu bạn chọn A, vì vậy bạn nên chọn B mọi lúc. Số tiền bạn mất do lỗi này là khoảng 0,12 khi bạn thực hiện, do đó, bạn sẽ mất khoảng 0,06 cho bước đầu tiên. Bạn mất một số tiền tương tự khi bạn lật một đồng xu để quyết định có thu thập bất kỳ thông tin nào trong vài bước tiếp theo hay không. Lật sớm Có nghĩa là bạn có ít thời gian hơn để khai thác lợi thế bạn có thể tìm thấy.
Douglas Zare 15/03/13

3
0,5

1
@DoumundZare Nếu biện pháp duy nhất của bạn là số lượng người đứng đầu dự kiến, với số lần lật đồng xu của chúng tôi, thì chiến lược tốt nhất là luôn luôn chọn đồng tiền A. Nhưng điều này không đầy đủ vì nó tập trung quá nhiều vào việc khám phá và không đủ cho mặt trái của tiềm năng thăm dò . Kết luận hợp lý cho đề xuất của bạn là, nếu chúng tôi khởi động lại thử nghiệm, hãy lật đồng xu B một lần: nếu đó là Đuôi, luôn chọn A; nếu không thì lật lại lần nữa, nếu đó là Thủ trưởng luôn chọn B.
Cam.Davidson.Pilon 15/03/13

9

Đây là một trường hợp đơn giản của một vấn đề tên cướp đa vũ trang . Như bạn lưu ý, bạn muốn cân bằng thông tin bạn thu thập bằng cách thử đồng tiền chưa biết khi bạn nghĩ là tối ưu trong thời gian ngắn chống lại việc khai thác kiến ​​thức bạn có.

1/2

Nói chung, tôi nghĩ rằng bạn không thể thoát khỏi một vấn đề lập trình động, mặc dù có thể có những trường hợp đặc biệt trong đó chiến lược tối ưu có thể được tìm thấy và kiểm tra đơn giản hơn.

Với đồng phục trước, đây là nơi bạn nên dừng lại:

(0 thủ trưởng,3 đuôi),(1 cái đầu,5 đuôi),(2 thủ trưởng,6 đuôi),(3,7),(4,số 8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50)

61,3299

Tôi đã sử dụng mã Mathicala sau đây để tính toán các cổ phần:

Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] = 
    If[n == 0, heads, 
       Max[1/2 + Equity[n - 1, heads, tails], 
           (heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] + 
           (tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
           ]
      ]

Để so sánh, heuristic lấy mẫu của Thompson (mà Cam Davidson Pilon tuyên bố là tối ưu) cho trung bình 60.2907 đầu, thấp hơn 1.03915. Việc lấy mẫu của Thompson có một vấn đề là đôi khi nó lấy mẫu B khi bạn có đủ thông tin để biết rằng đó không phải là một vụ cá cược tốt và thường lãng phí cơ hội để lấy mẫu B sớm, khi thông tin có giá trị nhất. Trong loại vấn đề này, bạn gần như không bao giờ thờ ơ giữa các lựa chọn của mình và có một chiến lược tối ưu thuần túy.

tp[heads_, tails_] := tp[heads, tails] = 
    Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]


Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] = 
    If[flipsLeft == 0, heads, 
       Module[{p = tp[heads, tails]}, 
           p (1/2 + Thompson[flipsLeft-1,heads,tails]) + 
           (1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] + 
           ((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]

Tôi đồng ý rằng một giải pháp tối ưu sẽ tốt hơn một giải pháp gần đúng. Tôi tự hỏi nếu có một giải pháp chung tối ưu có thể được áp dụng hiệu quả trong vòng một phần nghìn giây trong một môi trường năng động với hàng trăm "đồng xu". Nếu không, tôi đoán lấy mẫu của Thompson là lựa chọn tốt nhất.
M. Cypher

Lấy mẫu là một xấp xỉ kém. Có những phép tính gần đúng tốt hơn mà bạn có thể sử dụng nếu bạn không muốn trải qua sự cố của phép tính chính xác (ở bậc hai tệ nhất), nhưng vẫn muốn tránh các lỗi lớn. Trên thực tế, tính toán chính xác có thể gần với tuyến tính hơn.
Douglas Zare 15/03/13

PrB(thủ trưởng)(0,1)1/250

Tôi không biết Mathicala vì vậy tôi không thể theo dõi cách bạn tính toán số lượng người đứng đầu dự kiến ​​của bạn. Quan tâm để giải thích phần đó? Nếu chúng tôi cho rằng kiến ​​thức rằng xu hướng của đồng xu B được rút ra từ phân phối đồng đều trên [0,1], thì tôi không thấy cách bạn có thể mong đợi để đánh bại 50/50.
jerad 15/03/13

1
Douglas: Bởi vì tôi đã chú ý hơn đến câu trả lời của bạn :-). Xin đừng hiểu lầm tôi - tôi thích nó và tôi thích chủ đề này. Tôi nghĩ điều quan trọng là chỉ ra rằng bạn phải thêm một giả định để có được câu trả lời của mình, chỉ vậy thôi. Là một vấn đề thực tế, trong nhiều tình huống - bao gồm cả tình huống này-- không có trước . (Tôi chắc chắn sẽ không muốn tạo ra một cá nhân trước và sau đó phải đặt cược số tiền lớn vào nó!) Nhưng tất nhiên vẫn có một cách tối ưu, miễn là bạn chỉ định chức năng thua lỗ. ("Tối đa hóa" một kỳ vọng không phải là chức năng mất toàn bộ.)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.