Hiểu đạo hàm đánh đổi sai lệch


20

Tôi đang đọc chương về sự đánh đổi sai lệch của các yếu tố của việc học thống kê và tôi nghi ngờ trong công thức ở trang 29. Hãy để dữ liệu phát sinh từ một mô hình sao cho trong đó là ngẫu nhiên số có giá trị mong đợi và phương sai . Đặt giá trị lỗi dự kiến ​​của mô hình là E [(Y-f_k (x)) ^ 2] trong đó f_k (x) là dự đoán của x của người học của chúng tôi. Theo sách, lỗi là E [(Y-f_k (x)) ^ 2] = \ sigma ^ 2 + Bias (f_k) ^ 2 + Var (f_k (x)).

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Câu hỏi của tôi là tại sao thuật ngữ thiên vị không phải là 0? phát triển công thức của lỗi Tôi thấy

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

as là số ngẫu nhiên độc lậpϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Tôi sai ở đâu?

Câu trả lời:


19

Bạn không sai, nhưng bạn đã mắc lỗi trong một bước kể từ . là .E [ ( f ( x ) - f k ( x ) ) 2 ] MSE ( f k ( x ) ) = V a r ( f k ( x )E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Lưu ý:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


Trong trường hợp kết quả nhị phân, Có bằng chứng tương đương với entropy chéo là thước đo lỗi không?
emanuele

1
Nó không hoạt động khá tốt với một phản ứng nhị phân. Xem Ex 7.2 trong phiên bản thứ hai của "Các yếu tố của học thống kê".
Matthew Drury

3
bạn có thể giải thích cách bạn đi từ đến VE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2 ? Var(fk(x))+Bias2(fk(x))+σ2
Antoine

16

Một vài bước nữa của phân tách Bias - Phương sai

Thật vậy, đạo hàm đầy đủ hiếm khi được đưa ra trong sách giáo khoa vì nó liên quan đến rất nhiều đại số không mệt mỏi. Dưới đây là một dẫn xuất đầy đủ hơn bằng cách sử dụng ký hiệu từ cuốn sách "Các yếu tố của học thống kê" trên trang 223


Nếu chúng ta giả định rằng Y=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2 sau đó chúng ta có thể lấy được các biểu thức cho các lỗi dự đoán dự kiến của một hồi quy phù hợp f ( X ) tại đầu vào X = x 0 bằng cách sử dụng mất bình phươngf^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Đối với ký hiệu đơn giản let f ( x 0 ) = f , f ( x 0 ) = f và nhớ lại rằng E [ f ] = fE [ Y ] = ff^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

For the term E[(ff^)2] we can use a similar trick as above, adding and subtracting E[f^] to get

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Putting it together

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Some comments on why E[f^Y]=fE[f^]

Taken from Alecos Papadopoulos here

Recall that f^ is the predictor we have constructed based on the m data points {(x(1),y(1)),...,(x(m),y(m))} so we can write f^=f^m to remember that.

On the other hand Y is the prediction we are making on a new data point (x(m+1),y(m+1)) by using the model constructed on the m data points above. So the Mean Squared Error can be written as

E[f^m(x(m+1))y(m+1)]2

Expanding the equation from the previous section

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

The last part of the equation can be viewed as

E[f^m(x(m+1))ϵ(m+1)]=0

Since we make the following assumptions about the point x(m+1):

  • It was not used when constructing f^m
  • It is independent of all other observations {(x(1),y(1)),...,(x(m),y(m))}
  • It is independent of ϵ(m+1)

Other sources with full derivations


1
Why E[f^Y]=fE[f^]? I don't think Y and f^ are independent, since f^ is essentially constructed using Y.
Felipe Pérez

5
But the question is essentially the same, why E[f^ϵ]=0? The randomness of f^ comes from the error ϵ so I don't see why would f^ and ϵ be independent, and hence, E(f^ϵ)=0.
Felipe Pérez

From your precisation seems that the in sample vs out of sample perspective is crucial. It's so? If we work only in sample and, then, see ϵ as residual the bias variance tradeoff disappear?
markowitz

1
@FelipePérez as far as I understand, the randomness of f^ comes from the train-test split (which points ended up in the training set and gave f^ as the trained predictor). In other words, the variance of f^ comes from all the possible subsets of a given fixed data-set that we can take as the training set. Because the data-set is fixed, there is no randomness coming from ϵ and therefore f^ and ϵ are independent.
Alberto Santini
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.