Tôi đã có một số dữ liệu về các chuyến bay của hãng hàng không (trong khung dữ liệu được gọi flights
) và tôi muốn xem liệu thời gian chuyến bay có ảnh hưởng gì đến xác suất chuyến bay bị trì hoãn đáng kể hay không (nghĩa là 10 phút trở lên). Tôi hình dung tôi sẽ sử dụng hồi quy logistic, với thời gian bay là công cụ dự đoán và liệu mỗi chuyến bay có bị trì hoãn đáng kể hay không (một bó Bernoullis) làm phản hồi. Tôi đã sử dụng mã sau đây ...
flights$BigDelay <- flights$ArrDelay >= 10
delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
summary(delay.model)
... nhưng có đầu ra sau.
> flights$BigDelay <- flights$ArrDelay >= 10
> delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
Warning messages:
1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, :
algorithm did not converge
2: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, :
fitted probabilities numerically 0 or 1 occurred
> summary(delay.model)
Call:
glm(formula = BigDelay ~ ArrDelay, family = binomial(link = "logit"),
data = flights)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.843e-04 -2.107e-08 -2.107e-08 2.107e-08 3.814e-04
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -312.14 170.26 -1.833 0.0668 .
ArrDelay 32.86 17.92 1.833 0.0668 .
---
Signif. codes: 0 â***â 0.001 â**â 0.01 â*â 0.05 â.â 0.1 â â 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.8375e+06 on 2291292 degrees of freedom
Residual deviance: 9.1675e-03 on 2291291 degrees of freedom
AIC: 4.0092
Number of Fisher Scoring iterations: 25
Điều đó có nghĩa là thuật toán không hội tụ? Tôi nghĩ rằng đó là vì các BigDelay
giá trị là TRUE
và FALSE
thay vì 0
và 1
, nhưng tôi đã gặp lỗi tương tự sau khi tôi chuyển đổi mọi thứ. Có ý kiến gì không?