Hiểu đạo hàm đánh đổi sai lệch

Tôi đang đọc chương về sự đánh đổi sai lệch của các yếu tố của việc học thống kê và tôi nghi ngờ trong công thức ở trang 29. Hãy để dữ liệu phát sinh từ một mô hình sao cho trong đó là ngẫu nhiên số có giá trị mong đợi và phương sai . Đặt giá trị lỗi dự kiến của mô hình là trong đó là dự đoán của của người học của chúng tôi. Theo sách, lỗi là

Y = f (x) + ϵ

$Y = f(x)+\epsilon$

ϵ

$\epsilon$

\hat{ϵ} = E [ϵ] = 0

$\hat{\epsilon} = E[\epsilon]=0$

E [(ϵ - \hat{ϵ})^{2}] = E [ϵ^{2}] = σ^{2}

$E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2$

E [(Y - f_{k} (x))^{2}]

$E[(Y-f_k(x))^2]$

f_{k} (x)

$f_k(x)$

x

$x$

E [(Y - f_{k} (x))^{2}] = σ^{2} + B i a s (f_{k})^{2} + V a r (f_{k} (x)) .

$E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)).$

Câu hỏi của tôi là tại sao thuật ngữ thiên vị không phải là 0? phát triển công thức của lỗi Tôi thấy

E [(Y - f_{k} (x))^{2}] = E [(f (x) + ϵ - f_{k} (x))^{2}] = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] = V a r (f_{k} (x)) + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

as là số ngẫu nhiên độc lập $\epsilon$ $2E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0$

Tôi sai ở đâu?

— emanuele
nguồn

Câu trả lời:

Bạn không sai, nhưng bạn đã mắc lỗi trong một bước kể từ . là . $E[(f(x)-f_k(x))^2] \ne Var(f_k(x))$ $E[(f(x)-f_k(x))^2]$ $\text{MSE}(f_k(x)) = Var(f_k(x)) + \text{Bias}^2(f_k(x))$

\begin{aligned} E [(Y - f_{k} (x))^{2}] & = E [(f (x) + ϵ - f_{k} (x))^{2}] \\ = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] \\ = E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2} \\ = V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2} . \end{aligned}

$\begin{align*} E[(Y-f_k(x))^2]& = E[(f(x)+\epsilon-f_k(x))^2] \\ &= E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]\\ &= E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2 \\ & = Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2. \end{align*}$

Lưu ý: $E[(f_k(x)-E(f_k(x)))(f(x)-E(f_k(x))] = E[f_k(x)-E(f_k(x))](f(x)-E(f_k(x))) = 0.$

— Công viên cây xanh
nguồn

Trong trường hợp kết quả nhị phân, Có bằng chứng tương đương với entropy chéo là thước đo lỗi không?

— emanuele

Nó không hoạt động khá tốt với một phản ứng nhị phân. Xem Ex 7.2 trong phiên bản thứ hai của "Các yếu tố của học thống kê".

— Matthew Drury

bạn có thể giải thích cách bạn đi từ

đến

E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2}

$Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2$

— Antoine

Một vài bước nữa của phân tách Bias - Phương sai

Thật vậy, đạo hàm đầy đủ hiếm khi được đưa ra trong sách giáo khoa vì nó liên quan đến rất nhiều đại số không mệt mỏi. Dưới đây là một dẫn xuất đầy đủ hơn bằng cách sử dụng ký hiệu từ cuốn sách "Các yếu tố của học thống kê" trên trang 223

Nếu chúng ta giả định rằng $Y = f(X) + \epsilon$ và $E[\epsilon] = 0$ và $Var(\epsilon) = \sigma^2_\epsilon$ sau đó chúng ta có thể lấy được các biểu thức cho các lỗi dự đoán dự kiến của một hồi quy phù hợp tại đầu vào bằng cách sử dụng mất bình phương $\hat f(X)$ $X = x_0$

E r r (x_{0}) = E [(Y - \hat{f} (x_{0}))^{2} | X = x_{0}]

$Err(x_0) = E[ (Y - \hat f(x_0) )^2 | X = x_0]$

Đối với ký hiệu đơn giản let , và nhớ lại rằng và $\hat f(x_0) = \hat f$ $f(x_0) = f$ $E[f] = f$ $E[Y] = f$

\begin{aligned} E [(Y - \hat{f})^{2}] & = E [(Y - f + f - \hat{f})^{2}] \\ = E [(y - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [(f - \hat{f}) (y - f)] \\ = E [(f + ϵ - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [f Y - f^{2} - \hat{f} Y + \hat{f} f] \\ = E [ϵ^{2}] + E [(f - \hat{f})^{2}] + 2 (f^{2} - f^{2} - f E [\hat{f}] + f E [\hat{f}]) \\ = σ_{ϵ}^{2} + E [(f - \hat{f})^{2}] + 0 \end{aligned}

$\begin{aligned} E[ (Y - \hat f)^2 ] &= E[(Y - f + f - \hat f )^2] \\ & = E[(y - f)^2] + E[(f - \hat f)^2] + 2 E[(f - \hat f)(y - f)] \\ & = E[(f + \epsilon - f)^2] + E[(f - \hat f)^2] + 2E[fY - f^2 - \hat f Y + \hat f f] \\ & = E[\epsilon^2] + E[(f - \hat f)^2] + 2( f^2 - f^2 - f E[\hat f] + f E[\hat f] ) \\ & = \sigma^2_\epsilon + E[(f - \hat f)^2] + 0 \end{aligned}$

For the term $E[(f - \hat f)^2]$ we can use a similar trick as above, adding and subtracting $E[\hat f]$ to get

\begin{aligned} E [(f - \hat{f})^{2}] & = E [(f + E [\hat{f}] - E [\hat{f}] - \hat{f})^{2}] \\ = E {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2} \\ = B i a s^{2} [\hat{f}] + V a r [\hat{f}] \end{aligned}

$\begin{aligned} E[(f - \hat f)^2] & = E[(f + E[\hat f] - E[\hat f] - \hat f)^2] \\ & = E \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = Bias^2[\hat f] + Var[\hat f] \end{aligned}$

Putting it together

E [(Y - \hat{f})^{2}] = σ_{ϵ}^{2} + B i a s^{2} [\hat{f}] + V a r [\hat{f}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Some comments on why $E[\hat f Y] = f E[\hat f]$

Taken from Alecos Papadopoulos here

Recall that $\hat f$ is the predictor we have constructed based on the $m$ data points $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$ so we can write $\hat f = \hat f_m$ to remember that.

On the other hand $Y$ is the prediction we are making on a new data point $(x^{(m+1)},y^{(m+1)})$ by using the model constructed on the $m$ data points above. So the Mean Squared Error can be written as

E [{\hat{f}}_{m} (x^{(m + 1)}) - y^{(m + 1)}]^{2}

$E[\hat f_m(x^{(m+1)}) - y^{(m+1)}]^2$

Expanding the equation from the previous section

E [{\hat{f}}_{m} Y] = E [{\hat{f}}_{m} (f + ϵ)] = E [{\hat{f}}_{m} f + {\hat{f}}_{m} ϵ] = E [{\hat{f}}_{m} f] + E [{\hat{f}}_{m} ϵ]

$E[\hat f_m Y]=E[\hat f_m (f+ \epsilon)]=E[\hat f_m f+\hat f_m \epsilon]=E[\hat f_m f]+E[\hat f_m \epsilon]$

The last part of the equation can be viewed as

E [{\hat{f}}_{m} (x^{(m + 1)}) \cdot ϵ^{(m + 1)}] = 0

$E[\hat f_m(x^{(m+1)}) \cdot \epsilon^{(m+1)}] = 0$

Since we make the following assumptions about the point $x^{(m+1)}$ :

It was not used when constructing $\hat f_m$
It is independent of all other observations $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$
It is independent of $\epsilon^{(m+1)}$

Other sources with full derivations

— Xavier Bourret Sicotte
nguồn

Why

E [\hat{f} Y] = f E [\hat{f}]

$E[\hat{f}Y]=f E[\hat{f}]$ ? I don't think

Y

$Y$ and

\hat{f}

$\hat{f}$ are independent, since

\hat{f}

$\hat{f}$ is essentially constructed using

Y

$Y$ .

— Felipe Pérez

But the question is essentially the same, why

E [\hat{f} ϵ] = 0

$E[\hat{f}\epsilon]=0$ ? The randomness of

\hat{f}

$\hat{f}$ comes from the error

ϵ

$\epsilon$ so I don't see why would

\hat{f}

$\hat{f}$ and

ϵ

$\epsilon$ be independent, and hence,

E (\hat{f} ϵ) = 0

$\mathbb{E}(\hat{f}\epsilon)=0$ .

— Felipe Pérez

From your precisation seems that the in sample vs out of sample perspective is crucial. It's so? If we work only in sample and, then, see

ϵ

$\epsilon$ as residual the bias variance tradeoff disappear?

— markowitz

@FelipePérez as far as I understand, the randomness of

\hat{f}

$\hat{f}$ comes from the train-test split (which points ended up in the training set and gave

\hat{f}

$\hat{f}$ as the trained predictor). In other words, the variance of

\hat{f}

$\hat{f}$ comes from all the possible subsets of a given fixed data-set that we can take as the training set. Because the data-set is fixed, there is no randomness coming from

ϵ

$\epsilon$ and therefore

\hat{f}

$\hat{f}$ and

ϵ

$\epsilon$ are independent.

— Alberto Santini

Hiểu đạo hàm đánh đổi sai lệch

Một vài bước nữa của phân tách Bias - Phương sai

Some comments on why E[f^Y]=fE[f^]E[f^Y]=fE[f^]E[\hat f Y] = f E[\hat f]

Other sources with full derivations

Some comments on why $E[\hat f Y] = f E[\hat f]$