Phân rã độ lệch bình phương trung bình (trong các yếu tố của học thống kê)


7

Tôi không thể tìm ra công thức 7.14 trên trang 224 của Yếu tố học tập thống kê được rút ra như thế nào . Bất cứ ai có thể giúp tôi tìm ra nó?

Average squared bias=Average[model bias]2+Average[estimation bias]2

nhập mô tả hình ảnh ở đây


1
Rob J. Hyndman có một bằng chứng trong bài đăng trên blog của mình "Sự phân rã phương sai" . Đây có phải là một trong những bạn đang tìm kiếm? <...> Đã nhìn lại lần nữa, không, có lẽ là không.
Richard Hardy

Câu trả lời:


2

Kết quả về cơ bản là do tính chất của công cụ ước tính tuyến tính tốt nhất. Lưu ý rằng chúng tôi không giả địnhf(X)là tuyến tính ở đây. Tuy nhiên, chúng ta có thể tìm thấy dự đoán tuyến tính gần đúngf tốt nhất.

Nhớ lại định nghĩa của β: β=argminβE[(f(X)XTβ)2]. Chúng ta có thể rút ra công cụ ước tính lý thuyết cho : trong đó chúng tôi đã giả sử là không thể đảo ngược. Tôi gọi nó là công cụ ước tính lý thuyết vì chúng ta không bao giờ biết (trong các tình huống trong thế giới thực) dù sao đi nữa, phân phối biên của X, hoặc , vì vậy chúng ta sẽ không biết những kỳ vọng đó. Bạn vẫn nên nhớ lại sự giống nhau của công cụ ước tính này với công cụ ước lượng bình phương nhỏ nhất (nếu bạn thay bằngβ

g(β)=E[(f(X)XTβ)2]=E[f2(X)]2βTE[Xf(X)]+βTE[XXT]βg(β)β=2E[Xf(X)]+2E[XXT]β=0β=E[XXT]1E[Xf(X)],
E[XXT]P(X)fy, sau đó công cụ ước tính OLS là công cụ ước tính tương đương plugin. cuối cùng tôi cho thấy chúng giống nhau để ước tính giá trị của ), về cơ bản cho chúng ta biết một cách khác để lấy công cụ ước tính OLS (theo lý thuyết số lượng lớn).β

LHS của (7.14) có thể được mở rộng thành:

Ex0[f(x0)Ef^α(x0)]2=Ex0[f(x0)x0Tβ+x0TβEf^α(x0)]2=Ex0[f(x0)x0Tβ]2+Ex0[x0TβEf^α(x0)]2+2Ex0[(f(x0)x0Tβ)(x0TβEf^α(x0))].

Để hiển thị (7.14), người ta chỉ cần hiển thị số hạng thứ ba là 0, tức là

Ex0[(f(x0)x0Tβ)(x0TβEf^α(x0))]=0,

trong đó LHS bằng

LHS=Ex0[(f(x0)x0Tβ)x0Tβ]Ex0[(f(x0)x0Tβ)Ef^α(x0))]

Thuật ngữ đầu tiên (để thuận tiện, tôi đã bỏ qua và thay thế nó bằng ): nơi chúng tôi đã sử dụng danh tính phương saix0x

E[(f(x)xTβ)xTβ]=E[f(x)xTβ]E[(xTβ)2]=E[f(x)xT]β(Var[xTβ]+(E[xTβ])2)=E[f(x)xT]β(βTVar[x]β+(βTE[x])2)=E[f(x)xT]β(βT(E[xxT]E[x]E[x]T)β+(βTE[x])2)=E[f(x)xT]βE[f(x)xT]E[xxT]1E[xxT]β+βTE[x]E[x]TββTE[x]E[x]Tβ=0,
Var[z]=E[zzT]E[z]E[z]Thai lần cho cả bước thứ hai và thứ hai; chúng tôi đã thay thế ở dòng cuối cùng thứ hai và tất cả các bước khác tuân theo do thuộc tính kỳ vọng / phương sai tiêu chuẩn. Cụ thể, là một vectơ không đổi ghi lại kỳ vọng, vì nó độc lập với nơi đo (hoặc ).βTβxx0

Thuật ngữ thứ hai trong đó đẳng thức thứ hai giữ vì là một điểm- kỳ vọng khôn ngoan nơi sự ngẫu nhiên phát sinh từ dữ liệu đào tạo , vì vậy là cố định; đẳng thức thứ ba giữ là độc lập với vị trí (

E[(f(x)xTβ)Ef^α(x)]=E[(f(x)xTβ)E[xTβ^α]]=E[E[β^αT]x(f(x)xTβ)]=Eβ^αTE[xf(x)xxTβ]=Eβ^αT(E[xf(x)]E[xxT]E[xxT]1E[xf(x)])=0,
Ef^α(x)yxEβ^αxx0) được dự đoán vì vậy đó là một sự thay đổi liên tục của kỳ vọng bên ngoài. Kết hợp các kết quả trên, tổng của hai số hạng này bằng 0, cho thấy phương trình (7.14).

Mặc dù không liên quan đến câu hỏi, điều đáng chú ý là , tức là là hàm hồi quy tối ưu, vì Do đó, nếu chúng ta nhớ lại công cụ ước tính cuối cùng là công cụ ước tính tuyến tính tốt nhất, phương trình trên về cơ bản cho chúng ta biết, sử dụng hàm hồi quy tối ưu hoặc phiên bản nhiễu, giống như công cụ ước tính điểm sự quan tâm. Tất nhiên, công cụ ước tính vớif(X)=E[Y|X]f(X)

f(X)=E[f(X)+ε|X]=E[Y|X].
β=E[XXT]1E[Xf(X)]=E[XXT]1E[XE[Y|X]]=E[XXT]1E[E[XY|X]]=E[XXT]1E[XY],
f(x)yfsẽ có tính chất / hiệu quả tốt hơn vì nó sẽ dẫn đến phương sai nhỏ hơn, có thể dễ dàng nhìn thấy từ thực tế đó giới thiệu thêm lỗi, hoặc phương sai.y


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.