Theo tôi biết, sự khác biệt giữa mô hình logistic và mô hình phản hồi phân đoạn (frm) là biến phụ thuộc (Y) trong đó frm là [0,1], nhưng logistic là {0, 1}. Hơn nữa, frm sử dụng công cụ ước tính gần đúng để xác định các tham số của nó.
Thông thường, chúng ta có thể sử dụng glm
để có được các mô hình logistic bằng cách glm(y ~ x1+x2, data = dat, family = binomial(logit))
.
Đối với frm, chúng tôi thay đổi family = binomial(logit)
để family = quasibinomial(logit)
.
Tôi nhận thấy chúng ta cũng có thể sử dụng family = binomial(logit)
để có được tham số của frm vì nó cho các giá trị ước tính tương tự. Xem ví dụ sau
library(foreign)
mydata <- read.dta("k401.dta")
glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)
trở về,
Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"),
data = mydata)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.1214 -0.1979 0.2059 0.4486 0.9146
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.074e+00 8.869e-02 12.110 < 2e-16 ***
mrate 5.734e-01 9.011e-02 6.364 1.97e-10 ***
age 3.089e-02 5.832e-03 5.297 1.17e-07 ***
sole 3.636e-01 9.491e-02 3.831 0.000128 ***
totemp -5.780e-06 2.207e-06 -2.619 0.008814 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1166.6 on 4733 degrees of freedom
Residual deviance: 1023.7 on 4729 degrees of freedom
AIC: 1997.6
Number of Fisher Scoring iterations: 6
Và đối với family = quasibinomial('logit')
,
glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)
trở về,
Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"),
data = mydata)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.1214 -0.1979 0.2059 0.4486 0.9146
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.074e+00 4.788e-02 22.435 < 2e-16 ***
mrate 5.734e-01 4.864e-02 11.789 < 2e-16 ***
age 3.089e-02 3.148e-03 9.814 < 2e-16 ***
sole 3.636e-01 5.123e-02 7.097 1.46e-12 ***
totemp -5.780e-06 1.191e-06 -4.852 1.26e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasibinomial family taken to be 0.2913876)
Null deviance: 1166.6 on 4733 degrees of freedom
Residual deviance: 1023.7 on 4729 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 6
Beta ước tính từ cả hai family
đều giống nhau, nhưng sự khác biệt là các giá trị SE. Tuy nhiên, để có được SE chính xác, chúng ta phải sử dụng library(sandwich)
như trong bài viết này .
Bây giờ, câu hỏi của tôi:
- Sự khác biệt giữa hai mã này là gì?
- Là frm sắp có được SE mạnh mẽ?
Nếu sự hiểu biết của tôi là không chính xác, xin vui lòng cho một số gợi ý.