Hồi quy logistic: Làm thế nào để có được một mô hình bão hòa


17

Tôi chỉ đọc về các biện pháp sai lệch cho hồi quy logistic. Tuy nhiên, phần được gọi là mô hình bão hòa đối với tôi không rõ ràng.

Tôi đã thực hiện một tìm kiếm Google rộng rãi nhưng không có kết quả nào trả lời câu hỏi của tôi. Cho đến nay tôi phát hiện ra rằng một mô hình bão hòa có một tham số cho mỗi quan sát, kết quả là một kết quả hoàn hảo. Điều này là rõ ràng với tôi. Nhưng: hơn nữa các giá trị được trang bị (của một mô hình bão hòa) bằng với các giá trị quan sát được.

Vì theo hiểu biết của tôi, hồi quy logistic được sử dụng để phân loại dữ liệu quan sát đã cho là hiệp biến với các nhãn bổ sung . Tuy nhiên, thước đo sai lệch sử dụng xác suất nhưng không phải là nhãn thực tế. Người ta áp dụng xác suất dự đoán được tính toán của hồi quy logistic so với xác suất quan sát được. Tuy nhiên, vì người ta chỉ đưa ra các nhãn thay vì xác suất, tôi bối rối làm thế nào để xây dựng một mô hình bão hòa từ các nhãn này?y{0,1}

Câu trả lời:


17

Đối với mỗi , xác suất phù hợp từ mô hình bão hòa sẽ giống như y i , bằng 0 hoặc một. Như đã giải thích ở đây, khả năng của mô hình bão hòa là 1 . Do đó, sự lệch lạc của mô hình như vậy sẽ - 2 log ( 1 / 1 ) = 0 , trên 0 df. Đây là một ví dụ từ R:yTôiyTôi1-2đăng nhập(1/1)= =00

y = c(1,1,1,0,0,0)
a <- factor(1:length(y)) 
fit <- glm(y~a,family=binomial) 
summary(fit)

Deviance Residuals: 
 0  0  0  0  0  0

Null deviance: 8.3178e+00  on 5  degrees of freedom

Residual deviance: 2.5720e-10  on 0  degrees of freedom

nn(n-1)

> k2
 [1] 1 2 3 4 5 6 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y2
 [1] 1 1 1 0 0 0 1 1 1 0 0 0
> fit3 = glm(y2 ~ k2, family = binomial)
> summary(fit3)    

    Null deviance: 1.6636e+01  on 11  degrees of freedom
    Residual deviance: 5.1440e-10  on  6  degrees of freedom

Trên thực tế, hóa ra trong R, mô hình bão hòa phụ thuộc vào hình thức đầu vào ngay cả khi dữ liệu hoàn toàn giống nhau, điều này không đẹp lắm. Cụ thể, trong ví dụ trên có 12 mức quan sát và 6 mức yếu tố, do đó mô hình bão hòa nên có 6 tham số chứ không phải 12. Nói chung, một mô hình bão hòa được định nghĩa là một trong đó số lượng tham số bằng với số lượng mô hình đồng biến riêng biệt. Tôi không biết tại sao mã R "thừa nhận" rằng yếu tố k2 có 6 cấp độ khác nhau, và mô hình bão hòa được trang bị 12 tham số.

Bây giờ, nếu chúng ta sử dụng chính xác cùng một dữ liệu ở dạng "nhị thức", chúng ta sẽ có câu trả lời đúng:

y_yes = 2 * c(1,1,1,0,0,0)
y_no = 2 * c(0,0,0,1,1,1)
x = factor(c(1:6))

> x
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y_yes
[1] 2 2 2 0 0 0
> y_no
[1] 0 0 0 2 2 2

modelBinomialForm = glm(cbind(y_yes, y_no) ~ x, family=binomial)

Deviance Residuals: 
[1]  0  0  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  2.490e+01  1.096e+05       0        1
x2           1.375e-08  1.550e+05       0        1
x3           1.355e-08  1.550e+05       0        1
x4          -4.980e+01  1.550e+05       0        1
x5          -4.980e+01  1.550e+05       0        1
x6          -4.980e+01  1.550e+05       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.6636e+01  on 5  degrees of freedom
Residual deviance: 3.6749e-10  on 0  degrees of freedom

Bây giờ chúng ta thấy rằng mô hình bão hòa có 6 tham số và nó trùng khớp với mô hình được trang bị. Do đó, độ lệch null là trên (6 - 1) = 5 df và độ lệch còn lại là trên (6-6) = 0 df.


yTôi00
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.