Bạn có thể đưa ra một lời giải thích trực quan đơn giản về phương pháp IRLS để tìm MLE của GLM không?

Lý lịch:

Tôi đang cố gắng theo dõi đánh giá của MLE về ước tính MLE cho GLM .

Tôi hiểu những điều cơ bản của dự MLE: likelihood, score, quan sát và dự kiến Fisher informationvà Fisher scoringkỹ thuật. Và tôi biết làm thế nào để chứng minh hồi quy tuyến tính đơn giản với ước lượng MLE .

Câu hỏi:

Tôi không thể hiểu ngay cả dòng đầu tiên của phương pháp này :(

Trực giác đằng sau các biến làm việc được định nghĩa là: $z_i$

z_{i} = {\hat{η}}_{i} + (y_{i} - {\hat{μ}}_{i}) \frac{d η_{i}}{d μ_{i}}

$z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i}$

Tại sao chúng được sử dụng thay vì để ước tính ? $y_i$ $\beta$

Và mối quan hệ của họ với mối quan hệ response/link functiongiữa $\eta$ và $\mu$

Nếu bất cứ ai có một lời giải thích đơn giản hoặc có thể hướng tôi đến một văn bản cấp cơ bản hơn về điều này, tôi sẽ rất biết ơn.

— ihadanny
nguồn

Một lưu ý phụ, đối với tôi, tôi đã tìm hiểu về IRLS trong bối cảnh ước tính (M-) mạnh mẽ trước khi nghe về toàn bộ khung "GLM" (mà tôi vẫn chưa hiểu hết). Để có góc nhìn thực tế về cách tiếp cận này, như một khái quát đơn giản về bình phương tối thiểu, tôi sẽ đề xuất nguồn đầu tiên tôi gặp: Phụ lục B của cuốn sách Tầm nhìn máy tính (E- miễn phí) của Richard Szeliski (4 trang đầu tiên, thực sự, mặc dù các liên kết này đến một số ví dụ tốt đẹp cũng có).

— GeoMatt22

Vài năm trước tôi đã viết một bài báo về điều này cho các sinh viên của tôi (bằng tiếng Tây Ban Nha), vì vậy tôi có thể cố gắng viết lại những lời giải thích ở đây. Tôi sẽ xem xét IRLS (lặp lại các ô vuông nhỏ nhất) qua một loạt các ví dụ về độ phức tạp tăng dần. Ví dụ đầu tiên, chúng ta cần khái niệm về một gia đình quy mô địa điểm. Đặt $f_0$ là một hàm mật độ tập trung ở 0 trong một số ý nghĩa. Chúng ta có thể xây dựng một họ mật độ bằng cách xác định

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$ nơi

σ > 0

$\sigma > 0$ là một tham số quy mô và

μ

$\mu$ là một tham số địa điểm. Trong mô hình lỗi đo lường, trong đó thông thường thuật ngữ lỗi được mô hình hóa như một phân phối bình thường, chúng ta có thể ở nơi phân phối bình thường đó sử dụng một họ quy mô vị trí như được xây dựng ở trên. Khi

f_{0}

$f_0$ là phân phối chuẩn chuẩn, xây dựng trên đưa ra

N (μ, σ)

$\text{N}(\mu, \sigma)$ gia đình.

Bây giờ chúng tôi sẽ sử dụng IRLS trên một số ví dụ đơn giản. Đầu tiên chúng ta sẽ tìm thấy những ước lượng trong mô hình ML (tối đa khả năng)

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$ với mật độ

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$ phân phối Cauchy gia đình vị trí

μ

$\mu$ (vì vậy đây là một gia đình địa điểm). Nhưng trước tiên một số ký hiệu. Công cụ ước lượng bình phương nhỏ nhất có trọng số của

μ

$\mu$ được cho bởi

μ^{*} = \frac{\sum_{i = 1}^{n} w_{i} y_{i}}{\sum_{i = 1}^{n} w_{i}} .

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$ nơi

w_{i}

$w_i$ là một số trọng lượng. Chúng ta sẽ thấy rằng ước lượng ML của

μ

$\mu$ có thể được thể hiện bằng các hình thức tương tự, với

w_{i}

$w_i$ một số chức năng của các số dư

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$ Hàm likelihood được cho bởi

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$ và hàm loglikabilities được cho bởi

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$ Đạo hàm của nó đối với

μ

$\mu$ là

nơi

. Viết

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

và

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$

, chúng tôi nhận

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$ We find

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$ where we used the definition

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$ Remembering that

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$ we obtain the equation

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$ which is the estimating equation of IRLS. Note that

The weights $w_i$ are always positive.
If the residual is large, we give less weight to the corresponding observation.

$\hat{\mu}^{(0)}$ , we could use the median, for example. Using this value we calculate residuals

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$ and weights

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$ The new value of

\hat{μ}

$\hat{\mu}$ is given by

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$ Continuing in this way we define

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$ and

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$ The estimated value at the pass

j + 1

$j+1$ of the algorithm becomes

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$ Continuing until the sequence

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$ converges.

Now we studies this process with a more general location and scale family, $f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ , with less detail. Let $Y_1,Y_2,\ldots,Y_n$ be independent with the density above. Define also $\epsilon_i=\frac{y_i-\mu}{\sigma}$ . The loglikelihood function is

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$ Writing

ν = σ^{2}

$\nu=\sigma^2$ , note that

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$ and

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$ Calculating the loglikelihood derivative

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$ and equaling this to zero gives the same estimating equation as the first example. Then searching for an estimator for

σ^{2}

$\sigma^2$ :

\begin{array}{rcl} \frac{\partial l (y)}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{(y_{i} - μ)}{2 σ^{3}}) \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{i} ϵ_{i}^{2} \overset{!}{=} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$ leading to the estimator

\hat{σ^{2}} = \frac{1}{n} \sum w_{i} (y_{i} - \hat{μ})^{2} .

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$ The iterative algorithm above can be used in this case as well.

In the following we give a numerical examle using R, for the double exponential model (with known scale) and with data y <- c(-5,-1,0,1,5). For this data the true value of the ML estimator is 0. The initial value will be mu <- 0.5. One pass of the algorithm is

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

with this function you can experiment with doing the iterations "by hand" Then the iterative algorithm can be done by

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Exercise: If the model is a $t_k$ distribution with scale parameter $\sigma$ show the iterations are given by the weight

w_{i} = \frac{k + 1}{k + ϵ_{i}^{2}} .

$w_i = \frac{k+1}{k+\epsilon_i^2}.$ Exercise: If the density is logistic, show the weights are given by

w (ϵ) = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} .

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

For the moment I will leave it here, I will continue this post.

— kjetil b halvorsen
nguồn

wow, great gentle introduction! but you're always referring to a single parameter

u

$u$ for all instances and the sources I quoted talk about a different

u_{i}

$u_i$ per instance. is this just a trivial modification?

— ihadanny

I will add more to this, just out of time now! The ideas remain the same, but the details get more involved.

— kjetil b halvorsen

will come to that!

— kjetil b halvorsen

And thanks for the exercise showing the weights for the logistic density. Did it and learned a lot thru the process. I do not know the

t_{k}

$t_k$ distribution, couldn't find anything about it...

— ihadanny

do you mind writing a blog post somewhere continuing this explanation? really useful for me and I'm sure will be for others...

— ihadanny