Sự khác biệt giữa hồi quy logistic và hồi quy phản ứng phân số là gì?


13

Theo tôi biết, sự khác biệt giữa mô hình logistic và mô hình phản hồi phân đoạn (frm) là biến phụ thuộc (Y) trong đó frm là [0,1], nhưng logistic là {0, 1}. Hơn nữa, frm sử dụng công cụ ước tính gần đúng để xác định các tham số của nó.

Thông thường, chúng ta có thể sử dụng glmđể có được các mô hình logistic bằng cách glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Đối với frm, chúng tôi thay đổi family = binomial(logit)để family = quasibinomial(logit).

Tôi nhận thấy chúng ta cũng có thể sử dụng family = binomial(logit)để có được tham số của frm vì nó cho các giá trị ước tính tương tự. Xem ví dụ sau

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

trở về,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

Và đối với family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

trở về,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Beta ước tính từ cả hai familyđều giống nhau, nhưng sự khác biệt là các giá trị SE. Tuy nhiên, để có được SE chính xác, chúng ta phải sử dụng library(sandwich)như trong bài viết này .

Bây giờ, câu hỏi của tôi:

  1. Sự khác biệt giữa hai mã này là gì?
  2. Là frm sắp có được SE mạnh mẽ?

Nếu sự hiểu biết của tôi là không chính xác, xin vui lòng cho một số gợi ý.

Câu trả lời:


11

Nếu câu hỏi của bạn là: sự khác biệt giữa hai mã này là gì?

Một cái nhìn ?glmnói See family for details of family functionsvà một cái nhìn ?familycho thấy mô tả sau đây:

Các họ quasibinomial và quasipoisson khác với các họ nhị thức và poisson chỉ ở chỗ tham số phân tán không cố định tại một, vì vậy chúng có thể mô hình phân tán quá mức.

Đây cũng là những gì bạn thấy trong đầu ra của bạn. Và đó là sự khác biệt giữa cả hai mô hình / mã.

Nếu câu hỏi của bạn là: sự khác biệt giữa hồi quy logistic và hồi quy phản ứng phân đoạn là gì?

Như bạn xác định chính xác, mô hình là mô hình logistic nếu các biến phụ thuộc của bạn là 0 hoặc 1. Papke và Wooldridge đã chỉ ra rằng bạn có thể sử dụng GLM của biểu mẫu này để phân số cũng như ước tính các tham số, nhưng bạn cần phải tính toán các lỗi tiêu chuẩn mạnh mẽ. Điều này là không cần thiết cho hồi quy logistic và trên thực tế, một số người cho rằng bạn không nên tính toán các lỗi tiêu chuẩn mạnh trong các mô hình probit / logit. Mặc dù đây là một cuộc tranh luận khác nhau.

Cơ sở lý thuyết xuất phát từ một bài báo nổi tiếng của Gourieroux, Monfort và Trognontrong Kinh tế lượng năm 1984. Họ chỉ ra rằng (trong một số điều kiện đều đặn, v.v.) các tham số khả năng tối đa thu được bằng cách tối đa hóa khả năng thuộc họ hàm mũ tuyến tính là ước tính phù hợp cho các tham số thuộc bất kỳ khả năng nào khác trong họ hàm mũ tuyến tính. Vì vậy, theo một cách nào đó, chúng tôi đang sử dụng phân phối logistic ở đây mặc dù nó không chính xác, nhưng các tham số vẫn nhất quán cho các tham số mà chúng tôi muốn có được. Vì vậy, nếu câu hỏi của bạn bắt nguồn từ quan sát rằng chúng tôi đang sử dụng hàm khả năng rất giống nhau để ước tính cả hai mô hình phản hồi logistic và phân đoạn, ngoại trừ việc chúng tôi trao đổi bản chất của biến phụ thuộc, thì đây là trực giác.


Làm thế nào chúng ta có thể đo hiệu suất frm? Chúng ta có thể sử dụng MSE như hồi quy tuyến tính không?
newbie

1
Đó là một câu hỏi rất khác nhau. Xin vui lòng gửi nó như là một cái mới.
coffeinjunky
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.