Một khái quát của Luật kỳ vọng lặp đi lặp lại


43

Gần đây tôi đã bắt gặp danh tính này:

E[E(Y|X,Z)|X]=E[Y|X]

Tất nhiên tôi quen thuộc với phiên bản đơn giản hơn của quy tắc đó, cụ thể là nhưng tôi không thể tìm thấy sự biện minh cho khái quát của nó.E[E(Y|X)]=E(Y)

Tôi sẽ biết ơn nếu ai đó có thể chỉ cho tôi một tài liệu tham khảo phi kỹ thuật cho thực tế đó hoặc, thậm chí tốt hơn, nếu ai đó có thể đưa ra một bằng chứng đơn giản cho kết quả quan trọng này.


2
Nếu y được điều hòa trên một số x thì điều này sẽ không chính xác ra khỏi phiên bản đơn giản hơn?
Mehrdad

Câu trả lời:


36

ĐIỀU TRỊ THÔNG TIN

Chúng ta nên nhớ rằng ký hiệu mà chúng ta điều kiện trên các biến ngẫu nhiên là không chính xác, mặc dù về mặt kinh tế, là ký hiệu. Trong thực tế, chúng ta dựa vào đại số sigma mà các biến ngẫu nhiên này tạo ra. Nói cách khác có nghĩa là để bình E [ Y | σ ( X ) ] . Nhận xét này có vẻ không phù hợp trong "Điều trị không chính thức", nhưng nó nhắc nhở chúng ta rằng các thực thể điều hòa của chúng ta là tập hợp các tập hợp (và khi chúng ta điều kiện trên một giá trị duy nhất, thì đây là một tập hợp đơn). Và những bộ này chứa gì? Chúng chứa thông tinE[YX]E[Yσ(X)]mà các giá trị có thể của biến ngẫu nhiên cung cấp cho chúng tôi về những gì có thể xảy ra với việc thực hiện các Y . Đưa ra khái niệm Thông tin, cho phép chúng ta suy nghĩ về (và sử dụng) Luật Kỳ vọng lặp lại (đôi khi được gọi là "Tài sản Tháp") theo cách rất trực quan: Đại số sigma được tạo bởi hai biến ngẫu nhiên, ít nhất là lớn như được tạo ra bởi một biến ngẫu nhiên: σ ( X ) σ ( X , Z ) trong ý nghĩa thiết lập lý thuyết thích hợp. Vì vậy, thông tin về Y chứa trong σ ( X ,XY

σ(X)σ(X,Z)Y là ít nhất cũng tuyệt vời như các thông tin tương ứng trong σ ( X ) . Bây giờ, khi ám chỉ ký hiệu, bộ σ ( X ) I x σ ( X , Z ) I x z . Sau đó, LHS của phương trình chúng ta đang xem xét, có thể được viếtσ(X,Z)σ(X)
σ(X)Ixσ(X,Z)Ixz

Mô tả bằng lời nói biểu thức trên ta có: "sự mong đợi của {giá trị kỳ vọng là những gì Y đưa thông tin tôi x z } cho rằng chúng tôi có thông tin sẵn có tôi x chỉ?"

E[E(Y|Ixz)|Ix]
YIxzIx

Có thể chúng ta bằng cách nào đó "đưa vào tài khoản" ? Không - chúng tôi chỉ biết tôi x . Nhưng nếu chúng ta sử dụng những gì chúng ta có (vì chúng ta bị ràng buộc bởi biểu thức mà chúng ta muốn giải quyết), thì về cơ bản chúng ta đang nói những điều về Y theo toán tử kỳ vọng, tức là chúng ta nói " E ( Y I x ) ", không còn nữa - chúng tôi vừa cạn kiệt thông tin của chúng tôi.IxzIxYE(YIx)

Do đó

E[E(Y|Ixz)|Ix]=E(Y|Ix)

Nếu ai đó không, tôi sẽ trở lại để điều trị chính thức.

A (thêm một chút) ĐIỀU TRỊ FORMAL

Chúng ta hãy xem hai cuốn sách rất quan trọng về lý thuyết xác suất, Xác suất và Đo lường của P. Billingsley (3d ed.-1995) và D. Williams "Xác suất với Martingales" (1991), đối xử với vấn đề chứng minh "Định luật lặp đi lặp lại":
Billingsley dành chính xác ba dòng cho bằng chứng. Williams, và tôi trích dẫn, nói

"(Tài sản Tháp) gần như ngay lập tức từ định nghĩa về kỳ vọng có điều kiện".

Đó là một dòng văn bản. Bằng chứng của Billingsley không ít mờ đục.

Tất nhiên họ đúng: tính chất quan trọng và rất trực quan của kỳ vọng có điều kiện này xuất phát trực tiếp (và gần như ngay lập tức) từ định nghĩa của nó - vấn đề duy nhất là, tôi nghi ngờ rằng định nghĩa này thường không được dạy, hoặc ít nhất là không được làm nổi bật, xác suất bên ngoài hoặc đo vòng tròn lý thuyết. Nhưng để thể hiện trong (gần như) ba dòng mà Luật kỳ vọng lặp lại, chúng ta cần định nghĩa về kỳ vọng có điều kiện, hay đúng hơn là thuộc tính xác định của nó .

Hãy để một không gian xác suất , và một biến ngẫu nhiên khả tích Y . Hãy để G là một phụ σ -algebra của F , GF . Sau đó, tồn tại một hàm WG -measurable, có thể tích hợp và (đây là thuộc tính xác định)(Ω,F,P)YGσFGFWG

E(W1G)=E(Y1G)GG[1]

nơi là hàm chỉ thị của tập G . Chúng ta nói rằng W là ( "một phiên bản") kỳ vọng có điều kiện của Y cho G , và chúng tôi viết W = E ( Y | G )1GGWYG Các chi tiết quan trọng cần lưu ý ở đây là sự kỳ vọng có điều kiện, có giá trị kỳ vọng giống như Y không, không chỉ trên toàn bộ G ,nhưng trong mỗi tập con G của G .W=E(YG)a.s.
YGGG

(Tôi sẽ cố gắng trình bày cách tài sản Tháp xuất phát từ định nghĩa về kỳ vọng có điều kiện).

làbiến ngẫu nhiên G -measurable. Xem xét sau đó một số phụ σ -algebra, nói HG . Sau đó, G HG G . Vì vậy, một cách tương tự như trước đây, chúng tôi có kỳ vọng có điều kiện của W cho H , nói U = E ( W | H )WGσHGGHGGWHđược đặc trưng bởi U=E(WH)a.s.

E(U1G)=E(W1G)GH[2]

, phương trình [ 1 ][ 2 ] cho chúng taHG[1][2]

E(U1G)=E(Y1G)GH[3]

Nhưng điều này là tài sản quy định của kỳ vọng có điều kiện của cho H . YHVì vậy, chúng tôi có quyền viết Kể từ khi chúng tôi cũng có bằng cách xây dựng U = E ( W | H ) = E ( E [ Y | G ] | H ) , chúng ta chỉ cần chứng minh tài sản Tower, hoặc dạng tổng quát của Luật lặp Expectations - trong vòng tám dòng.U=E(YH)a.s.
Bạn= =E(W|H)= =E(E[Y|G]|H)


6
(+1) Đây là một cách hữu ích để mô tả một khái niệm trừu tượng và khó khăn. Tuy nhiên, tôi tin rằng cụm từ "... không lớn hơn ..." nên "không nhỏ hơn". Tốt hơn nữa, phần đó có thể được làm rõ hơn bằng cách loại bỏ các phủ định và sử dụng một cấu trúc song song, như trong "Đại số sigma được tạo bởi hai biến ít nhất lớn bằng một biến ngẫu nhiên ... Vì vậy, thông tin về chứa trong σ ( X , Z ) là ít nhất cũng tuyệt vời như các thông tin tương ứng trong σ ( X ) ". Yσ(X,Z)σ(X)
whuber

Cảm ơn cả hai, cc @whuber. Đây là một định lý rất hữu ích.
JohnK

@ whuber Cảm ơn bạn đã phát hiện ra điều này - và cho gợi ý.
Alecos Papadopoulos

24

Cách tôi hiểu kỳ vọng có điều kiện và dạy học sinh của mình như sau:

kỳ vọng có điều kiện là một hình ảnh chụp bằng máy ảnh với độ phân giải σ ( X )E[Y|σ(X)]σ(X)

Như Alecos Papadopoulos đã đề cập, ký hiệu là chính xác hơn E [ Y | X ] . Dọc theo dòng máy ảnh, người ta có thể nghĩ Y là đối tượng ban đầu, ví dụ: phong cảnh, phong cảnh. E [ Y | σ ( X , Z ) ] là một hình ảnh chụp bằng máy ảnh với độ phân giải σ ( X , Z )E[Y|σ(X)]E[Y|X]YE[Y|σ(X,Z)]σ(X,Z). Kỳ vọng là toán tử trung bình (toán tử "làm mờ"?). Khung cảnh có thể chứa rất nhiều thứ, nhưng hình ảnh bạn chụp bằng máy ảnh có độ phân giải thấp chắc chắn sẽ khiến một số chi tiết biến mất, ví dụ, có thể có một UFO trên bầu trời có thể nhìn thấy bằng mắt thường của bạn nhưng nó không xuất hiện trong ảnh của bạn được chụp bởi (iphone 3?)

Nếu độ phân giải cao đến mức , thì ảnh này có thể chụp mọi chi tiết của khung cảnh thực. Trong trường hợp này, chúng ta có E [ Y | σ ( Y ) ] = Y .σ(X,Z)= =σ(Y)E[Y|σ(Y)]= =Y

Bây giờ, có thể được xem như là: sử dụng máy ảnh khác với độ phân giải σ ( X ) (ví dụ, iphone 1) thấp hơn so với σ ( X , Z ) (ví dụ, iphone 3) và chụp ảnh trên đó hình ảnh được tạo ra bởi máy ảnh với độ phân giải σ ( X , Z ) , sau đó nó nên được rõ ràng rằngE[E[Y|σ(X,Z)]|σ(X)]σ(X)σ(X,Z)σ(X,Z)hình ảnh này trên một bức tranh nên được giống như nếu bạn ban đầu chỉ cần sử dụng một máy ảnh với độ phân giải thấp vào khung cảnh.σ(X)

Điều này cung cấp trực giác về . Trong thực tế, chính trực giác này cho chúng ta biết rằng E [ E [ Y | X ] | X , Z ] = E [ Y | X ]E[E[Y|X,Z]|X]= =E[Y|X]E[E[Y|X]|X,Z]= =E[Y|X]vẫn. Điều này là do: nếu ảnh đầu tiên của bạn được chụp bởi iphone 1 (nghĩa là độ phân giải thấp) và bây giờ bạn muốn sử dụng máy ảnh tốt hơn (ví dụ: iphone 3) để tạo một ảnh khác trên ảnh đầu tiên, thì không có cách nào bạn có thể cải thiện chất lượng của bức ảnh đầu tiên.


2
yêu nó! :) giải thích tuyệt vời.
jessica

1
@jessica Tôi rất vui vì nó giúp :-) Tôi phải mất một thời gian để đưa ra lời giải thích này
KevinKim

21

Trong Định luật kỳ vọng lặp lại (LIE), , kỳ vọng bên trong đó là một biến ngẫu nhiên xảy ra là một hàm của X , giả sử g ( X ) , chứ không phải là một chức năng của Y . Rằng kỳ vọng về chức năng này của X xảy ra bằng với kỳ vọng của Y là hệ quả của LIE. Tất cả điều này là, vẫy tay, chỉ là sự khẳng định rằng giá trị trung bình của Y có thể được tìm thấy bằng cách tính trung bìnhE[E[Y|X]]= =E[Y]Xg(X)YXYYcác giá trị trung bình của trong các điều kiện khác nhau. Trong thực tế, tất cả chỉ là hậu quả trực tiếp của quy luật xác suất tổng. Ví dụ: nếu XY là các biến ngẫu nhiên rời rạc với khớp pmf p X , Y ( x , y ) , thì E [ Y ]YXYpX,Y(x,y) Lưu ý rằng kỳ vọng cuối cùng đối vớiX; E[Y|X]là một hàm củaX, không phải củaY, tuy nhiên ý nghĩa của nó cũng giống như giá trị trung bình củaY.

E[Y]=yypY(y)definition=yyxpX,Y(x,y)write in terms of joint pmf=yyxpYX(yX=x)pX(x)write in terms of conditional pmf=xpX(x)yypYX(yX=x)interchange order of summation=xpX(x)E[YX=x]inner sum is conditional expectation=E[E[YX]]RV E[YX] has value E[YX=x] when X=x
XE[YX]XYY

Các LIE khái quát hóa mà bạn đang xem xét có trên trái trong đó kỳ vọng bên trong là một hàm h ( X , Z ) của hai biến ngẫu nhiên XZ . Đối số tương tự như đã nêu ở trên nhưng bây giờ chúng ta phải chỉ ra rằng biến ngẫu nhiên E [ Y X ] bằng với một biến ngẫu nhiên khác. Chúng tôi làm điều này bằng cách nhìn vào giá trị của E [ Y |E[E[YX,Z]X]h(X,Z)XZ E[YX] khi X xảy ra có giá trị x . Bỏ qua các giải thích, chúng ta có E [ Y X = x ]E[YX]Xx Lưu ý rằng các bên áp chót đúng là công thức chogiá trị kỳ vọng có điều kiệncủa biến ngẫu nhiênE[Y|X,Z](một chức năng củaXZ) lạnhvào giá trị củaX. Chúng tôi đang sửaXđể có giá trịx, nhân các giá trị của biến ngẫu nhiênE[YX

E[YX=x]=yypYX(yX=x)=yypX,Y(x,y)pX(x)=yyzpX,Y,Z(x,y,z)pX(x)=yyzpYX,Z(yX=x,Z=z)pX,Z(x,z)pX(x)=zpX,Z(x,z)pX(x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)E[YX=x,Z=z)=E[E[YX,Z]X=x]
E[YX,Z]XZXXx bằnggiá trị pmf cóđiều kiệncủa Z đã cho X và tổng hợp tất cả các điều khoản đó.E[YX,Z]ZX

Do đó, với mỗi giá trị của biến ngẫu nhiên X , giá trị của biến ngẫu nhiên E [ Y X ] (mà chúng tôi đã lưu ý trước đó là hàm của X , không phải của Y ), giống như giá trị của biến ngẫu nhiên E [ E [ Y | X , Z ] | X ] , nghĩa là hai biến ngẫu nhiên đều bình đẳng. Tôi sẽ LIE cho bạn?xXE[YX]XYE[E[YX,Z]X]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.