Vấn đề với bằng chứng về kỳ vọng có điều kiện là dự đoán tốt nhất


19

Tôi có một vấn đề với bằng chứng về

E(Y|X)argming(X)E[(Yg(X))2]

mà rất có thể tiết lộ một sự hiểu lầm sâu sắc hơn về kỳ vọng và kỳ vọng có điều kiện.

Bằng chứng tôi biết diễn ra như sau (phiên bản khác của bằng chứng này có thể được tìm thấy ở đây )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

Bằng chứng sau đó thường tiếp tục với một đối số cho thấy 2E[(YE(Y|X))(E(Y|X)g(X))]=0 , và do đó

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

có thể được xem là giảm thiểu khi g(X)=E(Y|X) .

Câu đố của tôi về bằng chứng là như sau:

  1. Xem xét

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Dường như với tôi, độc lập với bất kỳ đối số nào cho thấy thuật ngữ đầu tiên luôn bằng 0, người ta có thể thấy rằng cài đặt g(X)=E(Y|X) giảm thiểu biểu thức vì nó ngụ ý (E(Y|X)g(X))=0 và do đó

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Nhưng nếu điều này là đúng, thì người ta có thể lặp lại bằng chứng thay thế bằng bất kỳ chức năng nào khác của , giả sử và đi đến kết luận rằng đó là làm giảm thiểu biểu thức. Vì vậy, phải có một cái gì đó tôi hiểu lầm (phải không?).E(Y|X)Xh(X)h(X)

  1. Tôi có một số nghi ngờ về ý nghĩa của trong tuyên bố của vấn đề. Ký hiệu nên được giải thích như thế nào? Có nghĩa làE[(Yg(X))2]

EX[(Yg(X))2] , hoặc ?EY[(Yg(X))2]EXY[(Yg(X))2]

Câu trả lời:


11

(Đây là bản chuyển thể từ Granger & Newbold (1986) "Dự báo chuỗi thời gian kinh tế").

Bằng cách xây dựng, hàm chi phí lỗi của bạn là . Điều này kết hợp một giả định quan trọng (rằng hàm chi phí lỗi đối xứng quanh 0) - một hàm chi phí lỗi khác nhau sẽ không nhất thiết phải có giá trị dự kiến ​​có điều kiện là của giá trị dự kiến. Bạn không thể giảm thiểu hàm chi phí lỗi vì nó chứa số lượng không xác định. Vì vậy, bạn quyết định giảm thiểu giá trị dự kiến ​​của nó thay vào đó. Sau đó, chức năng mục tiêu của bạn trở thành[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

mà tôi tin rằng câu trả lời cũng là câu hỏi thứ hai của bạn. Rõ ràng là độ giá trị kỳ vọng sẽ là của có điều kiện trên , vì chúng ta đang cố gắng để ước tính / dự báo dựa trên . Phân tách hình vuông để thu đượcYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Thuật ngữ đầu tiên không chứa vì vậy nó không ảnh hưởng đến việc giảm thiểu và có thể bỏ qua. Tích phân trong số hạng thứ hai bằng giá trị kỳ vọng có điều kiện của cho và tích phân trong số hạng cuối cùng bằng với sự thống nhất. Vì thếg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

Ký hiệu đạo hàm đầu tiên là dẫn đến điều kiện thứ tự đầu tiên để giảm thiểu trong khi đạo hàm thứ hai bằng là đủ cho tối thiểu.g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ĐỊA CHỈ: Logic của phương pháp chứng minh "cộng và trừ".

OP bối rối trước cách tiếp cận được nêu trong câu hỏi, bởi vì nó có vẻ như tautological. Không, bởi vì trong khi sử dụng chiến thuật cộng và trừ làm cho một phần cụ thể của hàm mục tiêu bằng 0 đối với sự lựa chọn tùy ý của thuật ngữ được thêm và trừ, nó KHÔNG cân bằng hàm giá trị , cụ thể là giá trị của mục tiêu chức năng đánh giá tại tối thiểu hóa ứng cử viên.

Đối với lựa chọn chúng ta có hàm giá trị Với lựa chọn tùy ý chúng ta có giá trị funtion .g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Tôi khẳng định rằng

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Nhiệm kỳ đầu tiên của LHS và RHS hủy bỏ. Cũng lưu ý rằng sự mong đợi bên ngoài là điều kiện trên . Bởi các tính chất của kỳ vọng có điều kiện, chúng tôi kết thúc vớiX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)h(x)]2
có bất đẳng thức nghiêm ngặt nếu . Vì vậy, là công cụ thu nhỏ toàn cầu và duy nhất.h(x)E(YX)E(YX)

Nhưng điều này cũng nói rằng phương pháp "cộng và trừ" không phải là cách chứng minh rõ ràng nhất ở đây.


Cảm ơn bạn đã trả lời. Nó giúp làm rõ câu hỏi thứ hai của tôi. Khi tôi cố gắng truyền đạt trong tiêu đề của câu hỏi, vấn đề chính của tôi (vấn đề đầu tiên trong bài viết) là về cơ chế chứng minh. Mối quan tâm chính của tôi là về sự hiểu biết của tôi về bằng chứng tôi đã trình bày trong câu hỏi. Như tôi đã giải thích, sự hiểu biết của tôi về bằng chứng dẫn tôi đến tuyên bố có vấn đề rõ ràng. Vì vậy, tôi muốn hiểu là sai lầm của tôi là vì nó có thể tiết lộ một số hiểu lầm sâu sắc hơn về các khái niệm về kỳ vọng và kỳ vọng có điều kiện. Bất kỳ suy nghĩ về điều này?
Martin Van der Linden

1
Tôi đã thêm một số giải thích về phương pháp "cộng và trừ" để chứng minh.
Alecos Papadopoulos

Mất một thời gian để hiểu nó, nhưng cuối cùng tôi đã mắc phải lỗi cơ bản của mình: đủ đúng khi , nhưng không có nghĩa là nó giảm thiểu biểu thức . Không có lý do nào mà biểu thức ngoặc vuông không thể thấp hơn 0. Do dấu trừ ở phía trước người ta có thể tìm thấy một số sao cho . E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Martin Van der Linden

1
Hmmm ... dấu trừ trong biểu thức bạn đề cập đến là một lỗi - nó phải là một dấu cộng. Tất nhiên sau đó bạn có thể sắp xếp lại các điều khoản để có được một dấu trừ ... điều này có làm tổn thương trực giác bạn có được không?
Alecos Papadopoulos

Cảm ơn đã theo kịp câu hỏi. Tôi đã chỉnh sửa bài viết ban đầu để sửa lỗi này. May mắn thay, tôi nghĩ rằng nó không làm tổn thương trực giác có được. Trên thực tế, nó giúp tôi hiểu thêm một sai lầm khác: Tôi đã giả sử rằng dấu trừ là quan trọng để đảm bảo rằng không nhất thiết là mức tối thiểu của . Nhưng tôi nhận ra đây không chỉ là về dấu hiệu trước 2. (Hy vọng) Điều tôi thực sự cần hiểu là, nói chung (nghĩa là tùy ý ) không cần giảm thiểu khi (phải không?). 0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
Martin Van der Linden

5

Lưu ý rằng để chứng minh câu trả lời, bạn thực sự chỉ cần thể hiện điều đó

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Đối với kỳ vọng sẽ thực hiện, bạn có điều kiện, nếu không thì hạn

argming(X)E[(Yg(X))2]

Không có nghĩa gì, vì là một biến ngẫu nhiên nếu là chứ không phải . Cho thấy bạn thực sự nên viết hoặc để làm rõ điều này. Bây giờ được làm rõ điều này, thuật ngữ là một hằng số và có thể được kéo ra bên ngoài triển khai và bạn có:g(X)EEXYEY|XE[(Yg(X))2|X]EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Do đó bạn có thể viết hàm mục tiêu là:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Giảm thiểu là rõ ràng từ đây. Lưu ý rằng nếu bạn cũng trung bình trên , thì có thể sử dụng một đối số tương tự để hiển thị:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Điều này cho thấy rằng nếu bạn đặt cho mỗi , thì bạn cũng có một bộ giảm thiểu đối với chức năng này. Vì vậy, trong một số trường hợp, điều đó không thực sự quan trọng cho dù là hay .g(X)=EY|X(Y|X)XEEYXEY|X


3

Có một quan điểm toán học rất đơn giản. Những gì bạn có là một vấn đề chiếu trong không gian Hilbert, giống như chiếu một vectơ trong lên một không gian con.Rn

Đặt biểu thị không gian xác suất cơ bản. Để giải quyết vấn đề, hãy xem xét các biến ngẫu nhiên với các giây thứ hai hữu hạn, nghĩa là không gian Hilbert . Vấn đề bây giờ là đây: đã cho , tìm hình chiếu của lên không gian con , nơi là -subalgebra của được tạo ra bởi . (Giống như trong trường hợp chiều hữu hạn, tối thiểu hóa -distance vào không gian con có nghĩa là tìm phép chiếu). Hình chiếu mong muốn là(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , bằng cách xây dựng. (Điều này thực sự đặc trưng cho , nếu người ta kiểm tra bằng chứng tồn tại).E(X|Y)


Đây là một phản ứng đẹp.
JII 18/03/2015

0

Về câu hỏi cuối cùng của bạn, kỳ vọng có thể là wrt (lỗi vô điều kiện) hoặc wrt (lỗi có điều kiện tại mỗi giá trị ). Hạnh phúc, giảm thiểu lỗi có điều kiện ở mỗi giá trị cũng giảm thiểu lỗi vô điều kiện, vì vậy đây không phải là điểm khác biệt quan trọng.p(x,y)p(yx)X=xX=x

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.