Kết quả về cơ bản là do tính chất của công cụ ước tính tuyến tính tốt nhất. Lưu ý rằng chúng tôi không giả địnhf(X)là tuyến tính ở đây. Tuy nhiên, chúng ta có thể tìm thấy dự đoán tuyến tính gần đúngf tốt nhất.
Nhớ lại định nghĩa của β∗: β∗=argminβE[(f(X)−XTβ)2]. Chúng ta có thể rút ra công cụ ước tính lý thuyết cho :
trong đó chúng tôi đã giả sử là không thể đảo ngược. Tôi gọi nó là công cụ ước tính lý thuyết vì chúng ta không bao giờ biết (trong các tình huống trong thế giới thực) dù sao đi nữa, phân phối biên của X, hoặc , vì vậy chúng ta sẽ không biết những kỳ vọng đó. Bạn vẫn nên nhớ lại sự giống nhau của công cụ ước tính này với công cụ ước lượng bình phương nhỏ nhất (nếu bạn thay bằngβ∗g(β)=E[(f(X)−XTβ)2]=E[f2(X)]−2βTE[Xf(X)]+βTE[XXT]β⟹∂g(β)∂β=−2E[Xf(X)]+2E[XXT]β=0⟹β∗=E[XXT]−1E[Xf(X)],
E[XXT]P(X)fy, sau đó công cụ ước tính OLS là công cụ ước tính tương đương plugin. cuối cùng tôi cho thấy chúng giống nhau để ước tính giá trị của ), về cơ bản cho chúng ta biết một cách khác để lấy công cụ ước tính OLS (theo lý thuyết số lượng lớn).β∗
LHS của (7.14) có thể được mở rộng thành:
Ex0[f(x0)−Ef^α(x0)]2=Ex0[f(x0)−xT0β∗+xT0β∗−Ef^α(x0)]2=Ex0[f(x0)−xT0β∗]2+Ex0[xT0β∗−Ef^α(x0)]2+2Ex0[(f(x0)−xT0β∗)(xT0β∗−Ef^α(x0))].
Để hiển thị (7.14), người ta chỉ cần hiển thị số hạng thứ ba là 0, tức là
Ex0[(f(x0)−xT0β∗)(xT0β∗−Ef^α(x0))]=0,
trong đó LHS bằng
LHS=Ex0[(f(x0)−xT0β∗)xT0β∗]−Ex0[(f(x0)−xT0β∗)Ef^α(x0))]
Thuật ngữ đầu tiên (để thuận tiện, tôi đã bỏ qua và thay thế nó bằng ):
nơi chúng tôi đã sử dụng danh tính phương saix0xE[(f(x)−xTβ∗)xTβ∗]=E[f(x)xTβ∗]−E[(xTβ∗)2]=E[f(x)xT]β∗−(Var[xTβ∗]+(E[xTβ∗])2)=E[f(x)xT]β∗−(βT∗Var[x]β∗+(βT∗E[x])2)=E[f(x)xT]β∗−(βT∗(E[xxT]−E[x]E[x]T)β∗+(βT∗E[x])2)=E[f(x)xT]β∗−E[f(x)xT]E[xxT]−1E[xxT]β∗+βT∗E[x]E[x]Tβ∗−βT∗E[x]E[x]Tβ∗=0,
Var[z]=E[zzT]−E[z]E[z]Thai lần cho cả bước thứ hai và thứ hai; chúng tôi đã thay thế ở dòng cuối cùng thứ hai và tất cả các bước khác tuân theo do thuộc tính kỳ vọng / phương sai tiêu chuẩn. Cụ thể, là một vectơ không đổi ghi lại kỳ vọng, vì nó độc lập với nơi đo (hoặc ).βT∗β∗xx0
Thuật ngữ thứ hai
trong đó đẳng thức thứ hai giữ vì là một điểm- kỳ vọng khôn ngoan nơi sự ngẫu nhiên phát sinh từ dữ liệu đào tạo , vì vậy là cố định; đẳng thức thứ ba giữ là độc lập với vị trí (E[(f(x)−xTβ∗)Ef^α(x)]=E[(f(x)−xTβ∗)E[xTβ^α]]=E[E[β^αT]x(f(x)−xTβ∗)]=Eβ^αTE[xf(x)−xxTβ∗]=Eβ^αT(E[xf(x)]−E[xxT]E[xxT]−1E[xf(x)])=0,
Ef^α(x)yxEβ^αxx0) được dự đoán vì vậy đó là một sự thay đổi liên tục của kỳ vọng bên ngoài. Kết hợp các kết quả trên, tổng của hai số hạng này bằng 0, cho thấy phương trình (7.14).
Mặc dù không liên quan đến câu hỏi, điều đáng chú ý là , tức là là hàm hồi quy tối ưu, vì
Do đó,
nếu chúng ta nhớ lại công cụ ước tính cuối cùng là công cụ ước tính tuyến tính tốt nhất, phương trình trên về cơ bản cho chúng ta biết, sử dụng hàm hồi quy tối ưu hoặc phiên bản nhiễu, giống như công cụ ước tính điểm sự quan tâm. Tất nhiên, công cụ ước tính vớif(X)=E[Y|X]f(X)f(X)=E[f(X)+ε|X]=E[Y|X].
β∗=E[XXT]−1E[Xf(X)]=E[XXT]−1E[XE[Y|X]]=E[XXT]−1E[E[XY|X]]=E[XXT]−1E[XY],
f(x)yfsẽ có tính chất / hiệu quả tốt hơn vì nó sẽ dẫn đến phương sai nhỏ hơn, có thể dễ dàng nhìn thấy từ thực tế đó giới thiệu thêm lỗi, hoặc phương sai.y