Bạn có thể đưa ra một lời giải thích trực quan đơn giản về phương pháp IRLS để tìm MLE của GLM không?


12

Lý lịch:

Tôi đang cố gắng theo dõi đánh giá của MLE về ước tính MLE cho GLM .

Tôi hiểu những điều cơ bản của dự MLE: likelihood, score, quan sát và dự kiến Fisher informationFisher scoringkỹ thuật. Và tôi biết làm thế nào để chứng minh hồi quy tuyến tính đơn giản với ước lượng MLE .


Câu hỏi:

Tôi không thể hiểu ngay cả dòng đầu tiên của phương pháp này :(

Trực giác đằng sau các biến làm việc được định nghĩa là:zi

zi=η^i+(yiμ^i)dηidμi

Tại sao chúng được sử dụng thay vì để ước tính ?yiβ

Và mối quan hệ của họ với mối quan hệ response/link functiongiữa ημ

Nếu bất cứ ai có một lời giải thích đơn giản hoặc có thể hướng tôi đến một văn bản cấp cơ bản hơn về điều này, tôi sẽ rất biết ơn.


1
Một lưu ý phụ, đối với tôi, tôi đã tìm hiểu về IRLS trong bối cảnh ước tính (M-) mạnh mẽ trước khi nghe về toàn bộ khung "GLM" (mà tôi vẫn chưa hiểu hết). Để có góc nhìn thực tế về cách tiếp cận này, như một khái quát đơn giản về bình phương tối thiểu, tôi sẽ đề xuất nguồn đầu tiên tôi gặp: Phụ lục B của cuốn sách Tầm nhìn máy tính (E- miễn phí) của Richard Szeliski (4 trang đầu tiên, thực sự, mặc dù các liên kết này đến một số ví dụ tốt đẹp cũng có).
GeoMatt22

Câu trả lời:


15

Vài năm trước tôi đã viết một bài báo về điều này cho các sinh viên của tôi (bằng tiếng Tây Ban Nha), vì vậy tôi có thể cố gắng viết lại những lời giải thích ở đây. Tôi sẽ xem xét IRLS (lặp lại các ô vuông nhỏ nhất) qua một loạt các ví dụ về độ phức tạp tăng dần. Ví dụ đầu tiên, chúng ta cần khái niệm về một gia đình quy mô địa điểm. Đặt f0 là một hàm mật độ tập trung ở 0 trong một số ý nghĩa. Chúng ta có thể xây dựng một họ mật độ bằng cách xác định

f(x)=f(x;μ,σ)=1σf0(xμσ)
nơiσ>0là một tham số quy mô vàμlà một tham số địa điểm. Trong mô hình lỗi đo lường, trong đó thông thường thuật ngữ lỗi được mô hình hóa như một phân phối bình thường, chúng ta có thể ở nơi phân phối bình thường đó sử dụng một họ quy mô vị trí như được xây dựng ở trên. Khif0là phân phối chuẩn chuẩn, xây dựng trên đưa raN(μ,σ)gia đình.

Bây giờ chúng tôi sẽ sử dụng IRLS trên một số ví dụ đơn giản. Đầu tiên chúng ta sẽ tìm thấy những ước lượng trong mô hình ML (tối đa khả năng)

Y1,Y2,,Yni.i.d
với mật độ
f(y)=1π11+(yμ)2,yR,
phân phối Cauchy gia đình vị tríμ (vì vậy đây là một gia đình địa điểm). Nhưng trước tiên một số ký hiệu. Công cụ ước lượng bình phương nhỏ nhất có trọng số củaμ được cho bởi
μ=i=1nwiyii=1nwi.
nơiwilà một số trọng lượng. Chúng ta sẽ thấy rằng ước lượng ML củaμcó thể được thể hiện bằng các hình thức tương tự, vớiwimột số chức năng của các số dư
ϵi=yiμ^.
Hàm likelihood được cho bởi
L(y;μ)=(1π)ni=1n11+(yiμ)2
và hàm loglikabilities được cho bởi
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
Đạo hàm của nó đối vớiμ nơi εi=yi-μ. Viếtf0(ε)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμf ' 0 (ε)=1f0(ϵ)=1π11+ϵ2 , chúng tôi nhận f ' 0 (ε)f0(ϵ)=1π12ϵ(1+ϵ2)2
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
We find
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
where we used the definition
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Remembering that ϵi=yiμ we obtain the equation
wiyi=μwi,
which is the estimating equation of IRLS. Note that
  1. The weights wi are always positive.
  2. If the residual is large, we give less weight to the corresponding observation.

μ^(0), we could use the median, for example. Using this value we calculate residuals

ϵi(0)=yiμ^(0)
and weights
wi(0)=21+ϵi(0).
The new value of μ^ is given by
μ^(1)=wi(0)yiwi(0).
Continuing in this way we define
ϵi(j)=yiμ^(j)
and
wi(j)=21+ϵi(j).
The estimated value at the pass j+1 of the algorithm becomes
μ^(j+1)=wi(j)yiwi(j).
Continuing until the sequence
μ^(0),μ^(1),,μ^(j),
converges.

Now we studies this process with a more general location and scale family, f(y)=1σf0(yμσ), with less detail. Let Y1,Y2,,Yn be independent with the density above. Define also ϵi=yiμσ. The loglikelihood function is

l(y)=n2log(σ2)+log(f0(yiμσ)).
Writing ν=σ2, note that
ϵiμ=1σ
and
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
Calculating the loglikelihood derivative
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
and equaling this to zero gives the same estimating equation as the first example. Then searching for an estimator for σ2:
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
leading to the estimator
σ2^=1nwi(yiμ^)2.
The iterative algorithm above can be used in this case as well.

In the following we give a numerical examle using R, for the double exponential model (with known scale) and with data y <- c(-5,-1,0,1,5). For this data the true value of the ML estimator is 0. The initial value will be mu <- 0.5. One pass of the algorithm is

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

with this function you can experiment with doing the iterations "by hand" Then the iterative algorithm can be done by

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Exercise: If the model is a tk distribution with scale parameter σ show the iterations are given by the weight

wi=k+1k+ϵi2.
Exercise: If the density is logistic, show the weights are given by
w(ϵ)=1eϵ1+eϵ1ϵ.

For the moment I will leave it here, I will continue this post.


wow, great gentle introduction! but you're always referring to a single parameter u for all instances and the sources I quoted talk about a different ui per instance. is this just a trivial modification?
ihadanny

1
I will add more to this, just out of time now! The ideas remain the same, but the details get more involved.
kjetil b halvorsen

2
will come to that!
kjetil b halvorsen

1
And thanks for the exercise showing the weights for the logistic density. Did it and learned a lot thru the process. I do not know the tk distribution, couldn't find anything about it...
ihadanny

2
do you mind writing a blog post somewhere continuing this explanation? really useful for me and I'm sure will be for others...
ihadanny
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.