Hồi quy logistic: Biến Bernoulli so với Binomial


32

Tôi muốn thực hiện hồi quy logistic với phản hồi nhị thức sau và với và làm dự đoán của tôi. X 2X1X2

nhập mô tả hình ảnh ở đây

Tôi có thể trình bày dữ liệu giống như phản hồi của Bernoulli theo định dạng sau.

nhập mô tả hình ảnh ở đây

Các đầu ra hồi quy logistic cho 2 bộ dữ liệu này hầu hết giống nhau. Phần dư sai lệch và AIC là khác nhau. (Sự khác biệt giữa độ lệch null và độ lệch dư là như nhau trong cả hai trường hợp - 0.228.)

Sau đây là các đầu ra hồi quy từ R. Các tập dữ liệu được gọi là binom.data và bern.data.

Đây là đầu ra nhị thức.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Đây là đầu ra Bernoulli.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Những câu hỏi của tôi:

1) Tôi có thể thấy rằng các ước tính điểm và sai số chuẩn giữa 2 cách tiếp cận là tương đương trong trường hợp cụ thể này. Sự tương đương này có đúng không?

2) Làm thế nào để trả lời cho Câu hỏi số 1 về mặt toán học?

3) Tại sao phần dư sai lệch và AIC khác nhau?

Câu trả lời:


24

1) Có. Bạn có thể tổng hợp / hủy tổng hợp (?) Dữ liệu nhị thức từ các cá nhân có cùng hiệp phương sai. Điều này xuất phát từ thực tế là số liệu thống kê đầy đủ cho mô hình nhị thức là tổng số sự kiện cho mỗi vectơ đồng biến; và Bernoulli chỉ là một trường hợp đặc biệt của nhị thức. Theo trực giác, mỗi thử nghiệm Bernoulli tạo nên kết quả nhị thức là độc lập, do đó, không nên có sự khác biệt giữa việc tính những kết quả này là một kết quả duy nhất hoặc như các thử nghiệm riêng lẻ.

2) Giả sử chúng ta có vectơ đồng biến duy nhất x 1 , x 2 , Mạnh , x n , mỗi vectơ có kết quả nhị thức trên các thử nghiệm N i , tức là Y iB i n ( N i , p i ) Bạn đã chỉ định một mô hình hồi quy logistic, vì vậy l o g i t ( p i ) = K Σ k = 1 β k x i knx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxik
mặc dù sau đó chúng ta sẽ thấy rằng điều này không quan trọng.

Các loga cho mô hình này là và chúng tôi tối đa hóa này đối vớiβ(trongpingữ) để có được ước lượng tham số của chúng tôi.

(β;Y)=i=1nlog(NiYi)+Yilog(pi)+(NiYi)log(1pi)
βpi

i=1,,nNtôi

Ztôi1,Giáo dục,ZtôiYtôi= =1
Ztôi(Ytôi+1),Giáo dục,ZtôiNtôi= =0
Ytôilà 1s và phần còn lại là 0s. Đây chính xác là những gì bạn đã làm - nhưng bạn cũng có thể thực hiện lần đầu tiên là 0 và phần còn lại là 1, hoặc bất kỳ thứ tự nào khác, phải không?(Ntôi-Ytôi)

Ztôij~Bernobạntôitôitôi(ptôi)
ptôi và vì cách chúng ta định nghĩa của chúng tôi Z i j s, điều này có thể được đơn giản hóa để (β;Y)= n Σ i = 1 Y i log( p i )+( N i - Y i )log(1- p i ) trông khá quen thuộc.
(β;Z)=i=1nj=1NiZijlog(pi)+(1Zij)log(1pi)
Zij
(β;Y)=i=1nYilog(pi)+(NiYi)log(1pi)

βlog(NiYi)β

Di=2[Yilog(Yi/Nip^i)+(NiYi)log(1Yi/Ni1p^i)]
p^i is the estimated probability from your model. Note that your binomial model is saturated (0 residual degrees of freedom) and has perfect fit: p^i=Yi/Ni for all observations, so Di=0 for all i.

In the Bernoulli model,

Dij=2[Zijlog(Zijp^i)+(1Zij)log(1Zij1p^i)]
Apart from the fact that you will now have i=1nNi deviance residuals (instead of n as with the binomial data), these will each be either
Dij=2log(p^i)
or
Dij=2log(1p^i)
depending on whether Zij=1 or 0, and are obviously not the same as the above. Even if you sum these over j to get a sum of deviance residuals for each i, you don't get the same:
Di=j=1NiDij=2[Yilog(1p^i)+(NiYi)log(11p^i)]

The fact that the AIC is different (but the change in deviance is not) comes back to the constant term that was the difference between the log-likelihoods of the two models. When calculating the deviance, this is cancelled out because it is the same in all models based on the same data. The AIC is defined as

AIC=2K2
and that combinatorial term is the difference between the s:

AICBernoulliAICBinomial=2i=1nlog(NiYi)=9.575

Thanks for your very detailed reply, Mark! Sorry for the delay in my response - I was on vacation. 3) Given that the 2 models give different results for deviance residuals and AIC, which one is correct or better? a) As I understand, observations with a deviance residual in excess of two may indicate lack of fit, so the absolute values of the deviance residuals matter. b) Since AIC is used to compare the fit between different models, perhaps there is no "correct" AIC. I would just compare the AICs of 2 binomial models or 2 Bernoulli models.
A Scientist

a) For the binary data, the Dij will be > 2 if either (Zij=1 and p^i<e1=0.368) or (Zij=0 and p^i>1e1=0.632). So even if your model fits the binomial data perfectly for the ith covariate vector (i.e. Yi/Ni=p^i<0.368, say), then the Yi Zijs that you've arbitrarily allocated as being 1 will have Dij>2. For this reason, I think the deviance residuals make more sense with the binomial data. Furthermore, the deviance itself for binary data does not have its usual properties...
Mark


1
b) Yes, comparing AICs between models only makes sense when the data used to fit each model is exactly the same. So compare Bernoulli with Bernoulli or binomial with binomial.
Mark

Thanks, Mark! Your thoughtful and detailed replies are much appreciated!
A Scientist

0

I just want make comments on the last paragraph, “The fact that the AIC is different (but the change in deviance is not) comes back to the constant term that was the difference between the log-likelihoods of the two models. When calculating the change in deviance, this is cancelled out because it is the same in all models based on the same data." Unfortunately, this is not correct for the change in deviance. The deviance does not include the constant term Ex (extra constant term in the log-likelihood for the binomial data). Therefore, the change in deviance does nothing to do with the constant term EX. The deviance compares a given model to the full model. The fact that the deviances are different from Bernoulli/binary and binomial modelling but change in deviance is not is due to the difference in the full model log-likelihood values. These values are cancelled out in calculating the deviance changes. Therefore, Bernoulli and binomial logistic regression models yield an identical deviance changes provided the predicted probabilities pij and pi are the same. In fact, that is true for the probit and other link functions.

Let lBm and lBf denote the log-likelihood values from fitting model m and full model f to Bernoulli data. The deviance is then

    DB=2(lBf - lBm)=-2(lBm – lBf).

Although the lBf is zero for the binary data, we have not simplified the DB and kept it as is. The deviance from the binomial modelling with the same covariates is

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

where the lbf+Ex and lbm+Ex are the log-likelihood values by the full and m models fitted to the binomial data. The extra constant term (Ex) is disappeared from the right hand side of the Db. Now look at change in deviances from Model 1 to Model 2. From Bernoulli modelling, we have change in deviance of

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Similarly, change in deviance from binomial fitting is

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

It is immediately follows that the deviance changes are free from the log-likelihood contributions from full models, lBf and lbf. Therefore, we will get the same change in deviance, DBC = DbC, if lBm1 = lbm1 and lBm2 = lbm2. We know that is the case here and that why we are getting the same deviance changes from Bernoulli and binomial modelling. The difference between lbf and lBf leads to the different deviances.


6
Would it be possibly for you to edit formatting of your answer? Unfortunately in this form it is not very readable. I would encourage you to brake the text in paragraphs and add TEX formatting to the formulas. It is also not always clear what does the abbreviations you use mean.
Tim

Many thanks, Tim. I am not familiar with the TEX formatting. I have originally typed in the Word, but I was unable to copy and paste. I have separated the equations from the text.
Saei

I'm not sure if you misread that paragraph: I said "the AIC is different (but the change in deviance is not)", and the remainder of the paragraph explains why the AIC is different between the two models. I didn't claim that the change in deviance depended on the constant term. In fact, I said "When calculating the change in deviance, this [the constant term] is cancelled out because it is the same in all models based on the same data"
Mark

The problem is that there is only one “constant term” in the text and it is the combinatorial term (binomial coefficient). When you say "this" is cancelled out, it implies that the constant term is included in the deviance. The difference between deviances from the Bernoulli and binomial models is the contributions from the log-likelihood value lbf from full the model. The lbf does not vary by different binomial models on the same data and it is cancelled out when calculating the change in deviance.
Saei

Ah ok I see what you mean. I have edited my answer accordingly, leaving in the reference to the change in deviance because the asker specifically mentioned it. The change in deviance is the same because the deviance doesn't depend on the constant term.
Mark
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.