Trong một GLM, khả năng đăng nhập của mô hình bão hòa luôn bằng không?


14

Là một phần của đầu ra của một mô hình tuyến tính tổng quát, độ lệch rỗng và độ lệch còn lại được sử dụng để đánh giá mô hình. Tôi thường thấy các công thức cho các đại lượng này được biểu thị theo khả năng ghi nhật ký của mô hình bão hòa, ví dụ: /stats//a/113022/22199 , Hồi quy logistic: Cách lấy mô hình bão hòa

Mô hình bão hòa, theo như tôi hiểu, là mô hình hoàn toàn phù hợp với phản ứng quan sát được. Do đó, ở hầu hết các nơi tôi đã thấy, khả năng đăng nhập của mô hình bão hòa luôn được đưa ra bằng không.

Tuy nhiên, cách công thức cho sự sai lệch được đưa ra cho thấy rằng đôi khi số lượng này là không. (Như thể nó luôn bằng 0, tại sao phải bận tâm đến nó?)

Trong trường hợp nào nó có thể khác không? Nếu nó không bao giờ khác không, tại sao lại đưa nó vào công thức cho sự lệch lạc?

Câu trả lời:


18

Nếu bạn thực sự có nghĩa là khả năng đăng nhập , thì câu trả lời là: không phải lúc nào cũng bằng không.

Ví dụ, hãy xem xét dữ liệu Poisson: yiPoisson(μi),i=1,,n . Các loga cho Y=(y1,,yn) được cho bởi:

()(μ;Y)=i=1nμi+i=1nyilogμii=1nlog(yi!).

Phân biệt (μ;Y) trong () liên quan đến μi và đặt nó là 0 (đây là cách chúng tôi có được MLE cho mô hình bão hòa):

1+yiμi=0.
Giải quyết này choμiđể có được μ i=yi, thay μ itrở lại(*)choμicho rằng loga của mô hình bão hòa là: ( μ ;Y)=n i=1yi(logyi-1)-n i=μ^i=yiμ^i()μi
(μ^;Y)=i=1nyi(logyi1)i=1nlog(yi!)0
trừ khiyilấy các giá trị rất đặc biệt.

Trong trang trợ giúp của Rchức năng glm, bên dưới mục deviance, tài liệu giải thích vấn đề này như sau:

deviance lên đến một hằng số, trừ hai lần khả năng đăng nhập tối đa. Trong trường hợp hợp lý, hằng số được chọn sao cho mô hình bão hòa có độ lệch bằng không.

Lưu ý rằng nó đã đề cập rằng độ lệch , thay vì khả năng đăng nhập của mô hình bão hòa được chọn là 0.

Có lẽ, điều bạn thực sự muốn xác nhận là "độ lệch của mô hình bão hòa luôn luôn là 0", điều này đúng, theo định nghĩa, theo định nghĩa (xem Phần 4.5.1 của Phân tích dữ liệu phân loại (Ấn bản 2) của Alan Agresti) là thống kê tỷ lệ khả năng của một GLM được chỉ định cho mô hình bão hòa. Những điều đã constantnói ở trên trong tài liệu R thực sự gấp đôi khả năng đăng nhập tối đa của mô hình bão hòa.

Về tuyên bố của bạn "Tuy nhiên, cách thức đưa ra công thức cho sự lệch lạc cho thấy rằng đôi khi số lượng này không phải là số không.", Có lẽ là do lạm dụng việc sử dụng thuật ngữ sai lệch . Ví dụ, trong R, thống kê tỷ lệ khả năng so sánh hai mô hình tùy ý (lồng nhau) M 2 cũng được gọi là độ lệch, được gọi chính xác hơn là sự khác biệt giữa độ lệch của M 1 và độ lệch của M 2 , nếu chúng ta theo sát định nghĩa như được đưa ra trong cuốn sách của Agresti.M1M2M1M2

Phần kết luận

  1. Khả năng đăng nhập của mô hình bão hòa nói chung là khác không.

  2. Độ lệch (theo định nghĩa ban đầu của nó) của mô hình bão hòa là bằng không.

  3. Đầu ra sai lệch từ các phần mềm (như R) nói chung là khác không vì nó thực sự có nghĩa là một cái gì đó khác (sự khác biệt giữa các độ lệch).


Sau đây là đạo hàm cho trường hợp gia đình hàm mũ và một ví dụ cụ thể khác. Giả sử rằng dữ liệu đến từ gia đình mũ (xem Modern Thống Kê Ứng Dụng với S , Chương ): f ( y i ; θ i , φ ) = exp [ Một i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7

(1)f(yi;θi,φ)=exp[Ai(yiθiγ(θi))/φ+τ(yi,φ/Ai)].
Trong đó được biết các trọng số trước và φ là tham số phân tán / tỷ lệ (đối với nhiều trường hợp như nhị thức và Poisson, tham số này được biết đến, trong khi đối với các trường hợp khác như bình thường và Gamma, tham số này không xác định). Sau đó, loga được cho bởi: ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τAiφ Như trong ví dụ Poisson, các tham số của mô hình bão hòa có thể được ước tính bằng cách giảihàmsố điểmsau: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Y)=i=1nAi(yiθiγ(θi))/φ+i=1nτ(yi,φ/Ai).
0=U(θi)=(θ,φ;Y)θi=Ai(yiγ(θi))φ

θ^i

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

()Γ(α,β)


f(y;α,β)=βαΓ(α)eβyyα1,y>0,α>0,β>0,
f(1)
φ=1α,θ=βα,
f
f(y;θ,φ)= =điểm kinh nghiệm[θy-(-đăng nhập(-θ))φ+τ(y,φ)],
τ(y,φ)= =-đăng nhậpφφ+(1φ-1)đăng nhậpy-đăng nhậpΓ(φ-1).
θ^Tôi= =-1yTôi
i=1n1φ[θ^iyi(log(θ^i))]=i=1n1φ[1log(yi)]0,
yi

1
Là loglikabilities bằng 0 và chỉ khi mô hình có thể gán xác suất 100% cho mỗi kết quả có thể xảy ra?
Alex

0τ0

Nguồn gốc của bạn là rất tốt nhưng bằng chứng chính thức là một chút trên đầu của tôi tại thời điểm này. Cảm ơn bạn cho ví dụ của bạn với mô hình Poisson. Điều tôi lấy ra từ ví dụ này là mô hình Poisson không thể gán xác suất 100% cho kết quả quan sát được với bất kỳ giá trị nào cho giá trị trung bình Poisson, do đó khả năng không thể bằng không.
Alex

100%y1,,ynYP(Y=y1)+P(Y=y2)++P(Y=yn)<1

1
YP(Y=yi)<1i

4

0

(1)L(y;X,β)=i=1nf(yi;xi,β)=i=1nπiyi(1πi)1yi=i=1n(πi1πi)yi(1πi)
πi=invlogit(xiβ)

logL(y;X,β)=i=1nyilog(πi1πi)+log(1πi)=i=1nyilogit(πi)+log(1πi)=i=1nyixiβ+log(1invlogit(xiβ))=i=1nyixiβ+log(invlogit(xiβ))=i=1nyixiβlog(1+exp[xiβ]))

If you take the derivatives with respect to all of the coefficients you get

(2)(β)=i=1nyixiexp[xiβ](1+exp[xiβ])xi.

Setting this expression equal to 0 and solving for β will give you your answer. Usually this can't be done analytically, which explains the popularity/necessity of using iterative algorithms to fit this model, but in the case of a saturated model, it is possible.

To find the saturated model, we give each row it's own coefficent. So βRn and the design matrix times the coefficient vector is

Xβ=[100010001][β1β2βn].

Note that in particular, xiβ=βi.

So taking the jth row of equation (2) gives us

i=1nyixi,j=i=1nexp[xiβ](1+exp[xiβ])xi,j

which can only be true if for each observation i:

yi=invlogit(βi)
or in other words each βi is plus or minus infinity (if yi is 1 or 0, respectively). We can plug these parameters back into (1) to get the maximized likelihood:
i=1nπ^iyi(1π^i)1yi=1n=1.
Clearly the log of this is 0.


But this assumes ungrouped data. If you have groups with ni>1 (and the same covariate values) (in R, forexample using the form glm( cbind(k, n-k) ~ x + ... ) then the saturated model do not have loglikelihood zero.
kjetil b halvorsen

@kjetilbhalvorsen oh good point. I never tried that let me check
Taylor

1

@Alex: yes, thats right. at least for discrete distributions. for continuous distributions, it would come down to letting the density be equal 1, which is not necessarily meaningful and therefore not a sensible thing to try and achieve. slightly more generally, the log-likelihood of the saturated model gives you an upper bound for the performance of any model that follows your assumption of the underlying distribution family. In other words, the log-likelihood of a saturated binomial model it is "as good as it gets" for the given data set (X,Y) assuming Y is binomial. It makes sense to compare your glm model to this upper bound as opposed to, say, 100% (or similar), since your model is inherently constrained by your assumption on the response distribution. The deviance as defined by @Zhanxiong therefore gives you a good idea how well your model performs w.r.t to its inherit limitations that come from assuming a certain response type.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.