Khi nào một người nhận nên ngẫu nhiên hóa các hành động trong một trò chơi báo hiệu?


10

Giả sử có một trò chơi truyền tín hiệu với một không gian thông điệp hữu hạn M , hữu hạn hành động không gian A , và hữu hạn kiểu không gian T . Thậm chí đơn giản hơn, tất cả các loại người gửi đều có sở thích giống hệt nhau (người nhận chỉ thích các hành động khác nhau để đáp ứng với các loại khác nhau). Người nhận có thể làm tốt hơn bằng cách ngẫu nhiên giữa các câu trả lời không? Khi trạng thái cân bằng tồn tại mà người nhận chỉ thực hiện các hành động thuần túy?

Ubiquitous đã tóm tắt câu hỏi của tôi một cách độc đáo, "Có bao giờ trường hợp cân bằng với mức chi trả cao nhất của người nhận nhất thiết phải liên quan đến các chiến lược hỗn hợp không?"

Hãy đi với trạng thái cân bằng tuần tự. Nếu bạn muốn một số ký hiệu để bắt đầu.

σt(m) là xác suất màtT gửimM .

σRm(a) là xác suất mà người nhận phản ứng vớim vớiaA. μmΔT cho niềm tin của người nhận sau khi quan sátm .

Một trạng thái cân bằng tuần tự đòi hỏi σt cho phản ứng tối ưu cho σR , σR là được tối ưu μμ là Bayesian cho σ . Đây thực sự là định nghĩa của một tuần tự yếu, nhưng không có sự phân biệt trong một trò chơi báo hiệu.

Trực giác của tôi nói không khi tồn tại trạng thái cân bằng trong đó người nhận chỉ đóng những hành động thuần túy, nhưng tôi luôn thấy kinh khủng với những thứ này. Có lẽ chúng ta cũng phải quy định rằng đó không phải là một trò chơi có tổng bằng 0, nhưng tôi chỉ nói điều đó bởi vì tôi nhớ người chơi sẽ tốt hơn với khả năng chọn ngẫu nhiên trong các trò chơi đó. Có lẽ đây là một chú thích trong một bài báo ở đâu đó?

Hãy xem xét các trò chơi dưới đây, nơi sở thích của người gửi không giống nhau. Tôi xin lỗi vì chất lượng thấp. Có ba loại người gửi, mỗi loại có khả năng như nhau. Chúng ta có thể tạo ra thứ mà tôi tin là trạng thái cân bằng tối ưu của người nhận (người chơi 2) chỉ khi họ ngẫu nhiên hóa khi nhận được tin nhắn 1. Sau đó, loại 1 và 3 sẽ chơi , tạo ra trạng thái cân bằng riêng biệt. Nếu người nhận sử dụng chiến lược thuần túy để đáp ứng với m 1 , thì loại 1 hoặc 2 sẽ sai lệch và khiến người nhận trở nên tồi tệ hơn.m2m1

σRm1(a)=.5=σRm1(r)=.5

nhập mô tả hình ảnh ở đây


Các hành động được thực hiện bởi người nhận như là một chức năng của loại có ảnh hưởng đến tin nhắn được gửi bởi người gửi hay chúng là độc lập?
Martin Van der Linden

Tôi không chắc chính xác ý bạn là gì. Có một loại người nhận. Chiến lược của họ ánh xạ các thông điệp thành một phân phối trên các hành động. Họ chỉ có tác động đến thông điệp trong chừng mực mà người gửi đang chơi phản hồi tốt nhất.
Pburg

2
αα

@Ubiquitous Điều đó có ý nghĩa với tôi, nhưng tôi đã tự hỏi nếu có thể có một số trường hợp bệnh lý kỳ lạ. Ví dụ, tôi chỉ có thể tìm thấy một định lý, "Đối với các lựa chọn chung về tiền chi trả trong một trò chơi có hình thức hữu hạn với thu hồi hoàn hảo, số tiền chi trả không đổi trên mỗi thành phần được kết nối của cân bằng tuần tự." Sự cảnh báo chung làm tôi tự hỏi.
Pburg

1
@Pburg Vâng, tôi hiểu rồi. Có vẻ như chúng tôi đã có trong đầu những câu hỏi khác nhau. Tôi đã suy nghĩ "là nó từng trường hợp mà người nhận độc đáo đáp ứng tốt nhất để một chiến lược người gửi nhất định là một chiến lược hỗn hợp?", Trong khi có vẻ như câu hỏi của bạn là thực sự "là nó bao giờ hết các trường hợp đó, cân bằng với thưởng phạt thu cao nhất thiết phải liên quan đến chiến lược hỗn hợp? "
Ubiquitous

Câu trả lời:


3

Có lẽ tôi có một ví dụ!

m1,m2,m3t1,t2,t3Pr(t=t3)=12ϵPr(t=t2)=14Pr(t=t1)=14+ϵm30

Tập hợp các phản hồi của người nhận đối với tin nhắn làm=m1,m2{a,r}

ut(a,m1)=1>ut(a,m2)=β>ut(r,)=0

uR(t1,m1,a)=uR(t2,m2,a)=2 , ,uR(t3,mi,a)=1

uR(t2,m1,a)=uR(t2,m1,a)=0 , ,uR(t3,mi,r)=2

uR(t1,mi,r)=uR(t2,mi,r)=1 .

Sau đó ở trạng thái cân bằng, tất cả người gửi phải có được cùng một tiện ích, đúng không?. Nếu không, người ta sẽ bắt chước chiến lược của người kia.

Vì vậy, trạng thái cân bằng chiến lược thuần túy duy nhất là cho tất cả người gửi chọn . Trong trạng thái cân bằng gộp trên hoặc , phản hồi tốt nhất là chọn . Không có chiến lược thuần túy nào phân tách trạng thái cân bằng trừ khi và gửi và người nhận trả lời bằng . Sau đó, không phân biệt giữa tất cả các tin nhắn, bởi vì anh ta chắc chắn sẽ được trả bằng . Tất cả những điều này mang lại cho người nhận tiền thưởngm3m1m2rt1t2m2rt3032ϵ

Sau đó xem xét trường hợp vàBây giờ, người gửi không quan tâm giữa việc gửi hai tin nhắn đó. Sau đó, chúng ta hãy và cho . Sau đó, chiến lược thu là hợp lý.σRm1(a)=βσRm2(a)=1.σt3(m1)=ϵ+1/4ϵ+1/2=1σt3(m1)σti(mi)=1i=1,2

Tiện ích dự kiến ​​của người nhận từ được cho hoặc là 1,5. Tiện ích dự kiến ​​từ hơi cao hơn 1,5, được cung cấp . Vì vậy, tỷ lệ hoàn trả dự kiến ​​trước đây là trên , tốt hơn so với trạng thái cân bằng thuần túy được mô tả ở trên. Hơn nữa, sự tách biệt này chỉ được duy trì bằng cách trộn. Bất kỳ chiến lược thuần túy nào khác được thực hiện bởi người nhận sẽ tạo ra nhóm người gửi, nghĩa là trạng thái cân bằng chiến lược thuần túy duy nhất là khi người nhận chọn .m1arm2a32ϵr

Tôi nên có s trong hình bên dưới để hoàn trả cho người gửi bên trái cho . Tôi nghĩ rằng là thành phần chính.βaβ<1

nhập mô tả hình ảnh ở đây


3

Tôi nghĩ điều này không thể xảy ra với những người gửi không thích rủi ro, người nhận trung lập rủi ro và đủ giàu.A

Ví dụ, và để dính vào các mô hình tín hiệu kinh điển, giả sử rằng là dòng thực dương và tiện ích của người gửi đang tăng lên trong thời gian của người nhận có tiện ích tuyến tính giảm trong .Auaa

(Phải thừa nhận rằng đây chỉ là một câu trả lời một phần vì khung này ít chung chung hơn câu hỏi của bạn, vì vậy nó có thể không thỏa đáng với bạn. Tôi vẫn cung cấp một lập luận trong trường hợp bạn ổn với những giả định này)

Để lấy được một mâu thuẫn, giả sử rằng ở một trạng thái cân bằng và đối với một số . Để choσRm(a)>0σRm(a)>0aaA

aσRm(a)σRm(a)+σRm(a)a+σRm(a)σRm(a)+σRm(a)a.

Do sợ rủi ro

u[a]>σRm(a)σRm(a)+σRm(a)u(a)+σRm(a)σRm(a)+σRm(a)u(a).
[σRm(a)+σRm(a)]u(a)>σRm(a)u(a)+σRm(a)u(a).

Theo một số giả định liên tục, cũng phải tồn tại

a<a

như vậy mà

[σRm(a)+σRm(a)]u(a)=σRm(a)u(a)+σRm(a)u(a).

Vì vậy, hãy xem xét xây dựng theo cách sauσRm

  • σRm(a)=σRm(a)=0 ,
  • σRm(a)=σRm(a)+[σRm(a)+σRm(a)]
  • Đối với tất cả các ,a~σRm(a~)=σRm(a~)

Người nhận sẽ thích hơn nếu nó không làm thay đổi tín hiệu được gửi bởi người gửi, vì nó liên quan đến việc bù dự kiến ​​thấp hơn. Nhưng bằng cách xây dựng, người gửi không phân biệt giữa và , vì vậy họ nên gửi các tín hiệu giống như trong . Do đó, không thể là trạng thái cân bằng cho thấy chúng ta không thể có hai hành động khác nhau được chơi với xác suất dương ở trạng thái cân bằng.σRmσRm σRmσRmσRmσRm


Trong mô hình này, không phải người nhận luôn chỉ chọn ? a=0
Pburg

Tôi không nhất thiết phải như vậy. Nếu người nhận luôn choses không có vấn đề tín hiệu, cô không khuyến khích loại "cao" để lộ loại của họ trough một tín hiệu "cao hơn". Điều này có thể là tối ưu trong trạng thái cân bằng gộp, nhưng không phải ở trạng thái cân bằng riêng biệt. Xem ví dụ phần 13.C của Mas-Colell, Whinston và Green, mặc dù thiết lập lại hơi khác so với của bạn (ví dụ: có hai công ty cạnh tranh cho các công nhân thuộc các loại khác nhau)a
Martin Van der Linden

Vậy "người nhận có tiện ích tuyến tính giảm trong" nghĩa là gì?
Pburg

Xin lỗi điều đó không rõ ràng lắm. Trong mô hình báo hiệu Spence mà tôi có trong đầu, hành động mà người nhận thực hiện bao gồm trả tiền lương cho người gửi. Tiện ích người nhận phụ thuộc vào loại người gửi t, trừ đi tiền lương được trả t − w. Về cơ bản, người nhận là trung lập rủi ro: cô ấy chỉ quan tâm đến mức lương dự kiến ​​mà cô ấy sẽ phải trả, và loại dự kiến ​​cô ấy sẽ sử dụng.
Martin Van der Linden

Được rồi, tôi cho rằng tôi đã xem đây là mất phương pháp bậc hai,Cảm ơn lời đề nghị, mặc dù tôi đang tìm kiếm một cái gì đó chung chung hơn một chút nhưng với những hành động rời rạc. (tw)2.
Pburg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.