Dự đoán lỗi - dẫn xuất


20

Tôi đang đấu tranh để hiểu đạo hàm của lỗi dự đoán dự kiến ​​ở bên dưới (ESL), đặc biệt là về đạo hàm 2,11 và 2,12 (điều hòa, bước tiến tới mức tối thiểu theo điểm). Bất kỳ con trỏ hoặc liên kết nhiều đánh giá cao.

Dưới đây tôi đang báo cáo đoạn trích từ pg ESL. 18. Hai phương trình đầu tiên, theo thứ tự, phương trình 2.11 và 2.12.


Đặt XRp biểu thị một vectơ đầu vào ngẫu nhiên có giá trị thực và YR là biến đầu ra ngẫu nhiên có giá trị thực, với phân phối chung Pr(X,Y) . Chúng tôi tìm kiếm một hàm f(X) để dự đoán Y giá trị nhất định của đầu vào X . Lý thuyết này yêu cầu hàm mất L(Y,f(X)) để xử phạt các lỗi trong dự đoán và cho đến nay, phổ biến và thuận tiện nhất là mất bình phương lỗi :L(Y,f(X))= =(Y-f(X))2 . Điều này dẫn chúng ta đến một tiêu chí để chọnf ,

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

lỗi dự đoán (bình phương) dự kiến. Bằng cách điều hòa trên X , chúng ta có thể viết EPE như

EPE(f)=EXEY|X([Yf(X)]2|X)

và chúng tôi thấy rằng nó đủ để giảm thiểu điểm EPE:

f(x)=argmincEY|X([Yc]2|X)

Giải pháp là

f(x)=E(Y|X=x)

kỳ vọng có điều kiện, còn được gọi là hàm hồi quy .


Hoán đổi Y trong phương trình đầu tiên trong bài viết Wikipedia về Luật tổng kỳ vọng đưa ra sự tương đương của (2.9) và (2.11). Đọc bài viết đó để chứng minh. (2.12) là ngay lập tức, theo cách hiểu rằng f sẽ được chọn để giảm thiểu EPE. XYf
whuber

3
Lưu ý bên lề: Đây là từ các yếu tố của học thống kê
Zhubarb

2
Đối với những người cũng đang đọc cuốn sách này, hãy xem những ghi chú toàn diện này của Weathermax và Epstein
Dodgie

@Dodgie Liên kết đó đã chết: (
Matthew Drury

2
@MatthewDrury May mắn thay một googling của "Weathermax và Epstein thống kê" tìm thấy một liên kết như là kết quả đầu tiên;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Câu trả lời:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Tôi hiểu những gì bạn đã viết, nhưng bạn có nghĩ rằng nếu OP bị nhầm lẫn bởi đạo hàm được thể hiện trong câu hỏi, rằng anh ấy / cô ấy sẽ hiểu câu trả lời của bạn? Tất nhiên, tôi đã hiểu đạo hàm thể hiện trong câu hỏi.
Mark L. Stone

Tôi đến đây từ google với cùng một câu hỏi và thực sự tìm thấy sự phát sinh này chính xác là những gì tôi cần.
Dấu chấm phẩy và băng keo

1
@ MarkL.Stone - đây có thể là một câu hỏi ngu ngốc, nhưng bạn có thể giải thích ý nghĩa của và nó trở thành p ( x , y ) d x d y như thế nào? Cảm ơn rất nhiềuPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
Cái trước có nghĩa là cái sau. Tôi nghĩ rằng phổ biến hơn là sử dụng dP (x, y) hoặc dF (x, y). Trong 1D, bạn sẽ thường thấy dF (x) có nghĩa là f (x) dx, trong đó f (x) là hàm mật độ xác suất, nhưng ký hiệu cũng có thể cho phép hàm khối lượng xác suất rời rạc (tính tổng) hoặc thậm chí là hỗn hợp mật độ liên tục và khối lượng xác suất rời rạc.
Mark L. Stone

Sẽ không chính xác hơn để nói (công thức cuối cùng) ? EX(EY|X([Y-f(X)]2|X= =x))
D1X

11

Phương trình (2.11) là hệ quả của đẳng thức nhỏ sau đây. Đối với hai biến ngẫu nhiên Z 2 và bất kỳ hàm gZ1Z2g

EZ1,Z2(g(Z1,Z2))= =EZ2(EZ1|Z2(g(Z1,Z2)|Z2))

Ký hiệu là kỳ vọng về phân phối chung . Ký hiệu E Z 1Z 2 về cơ bản nói "tích hợp trên phân phối có điều kiện của Z 1 như thể Z 2 đã được sửa".EZ1,Z2EZ1|Z2Z1Z2

Thật dễ dàng để xác minh điều này trong trường hợp Z 2 là các biến ngẫu nhiên rời rạc bằng cách chỉ mở ra các định nghĩa liên quanZ1Z2

EZ2(EZ1|Z2(g(Z1,Z2)|Z2))= =EZ2(Σz1g(z1,Z2)Pr(Z1= =z1|Z2))= =Σz2(Σz1g(z1,z2)Pr(Z1= =z1|Z2= =z2))Pr(Z2= =z2)= =Σz1,z2g(z1,z2)Pr(Z1= =z1|Z2= =z2)Pr(Z2= =z2)= =Σz1,z2g(z1,z2)Pr(Z1= =z1,Z2= =z2)= =EZ1,Z2(g(Z1,Z2))

Trường hợp liên tục có thể được xem một cách không chính thức như là một giới hạn của lập luận này, hoặc được xác minh chính thức một khi tất cả các ông bố lý thuyết đo lường được đưa ra.

Để thư giãn ứng dụng, lấy , Z 2 = Xg ( x , y ) = ( y - f ( x ) ) 2 . Tất cả mọi thứ xếp hàng chính xác.Z1= =YZ2= =Xg(x,y)= =(y-f(x))2

Khẳng định (2.12) yêu cầu chúng tôi xem xét giảm thiểu

EXEY|X(Y-f(X))2

nơi chúng tôi có thể tự do chọn như chúng tôi muốn. Một lần nữa, tập trung vào trường hợp rời rạc và thả nửa chừng vào việc giải quyết ở trên, chúng tôi thấy rằng chúng tôi đang giảm thiểuf

Σx(Σy(y-f(x))2Pr(Y= =y|X= =x))Pr(X= =x)

f

Σy(y-f(x))2Pr(Y= =y|X= =x)

x


8

Tôi tìm thấy một số phần trong cuốn sách này diễn đạt theo một cách khó hiểu, đặc biệt đối với những người không có nền tảng vững chắc về thống kê.

Tôi sẽ cố gắng làm cho nó đơn giản và hy vọng rằng bạn có thể thoát khỏi sự nhầm lẫn.

E(X)= =E(E(X|Y)),X,Y

E(E(X|Y))= =E(X|Y= =y)fY(y)dy= =xfX|Y(x|y)dxfY(y)dy= =xfX|Y(x|y)fY(y)dxdy= =xfXY(x,y)dxdy= =x(fXY(x,y)dy)dx= =xfX(x)dx= =E(X)

E(Y-f(X))2E(Y-E(Y|X))2,f

E((Y-f(X))2|X)= =E(([Y-E(Y|X)]+[E(Y|X)-f(X)])2|X)= =E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X)+2E((Y-E(Y|X))(E(Y|X)-f(X))|X)= =E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X)+2(E(Y|X)-f(X))E(Y-E(Y|X))|X)( từ E(Y|X)-f(X) là hằng số cho X)= =E((Y-E(Y|X))2|X)+E((E(Y|X)-f(X))2|X) (sử dụng Yêu cầu 1 )E((Y-E(Y|X))2|X)

Lấy kỳ vọng cả hai mặt của phương trình trên đưa ra Yêu cầu 2 (QED)

f(X)= =E(Y|X)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.