Câu trả lời:
Trong trường hợp này, bạn có thể thu gọn dữ liệu của mình thành trong đó S i j là số trường hợp cho x = i và y = j với i , j ∈ { 0 , 1 } . Giả sử có n quan sát tổng thể.
Nếu chúng ta phù hợp với mô hình (trong đó g là chức năng liên kết của chúng tôi) chúng tôi sẽ thấy rằng β 0 là các logit của tỷ lệ thành công khi x i = 0 và beta 0 + β 1 là logit của tỷ lệ thành công khi . Nói cách khác, β 0 = g ( S 01 và β 0+ β 1=g(S11
Hãy kiểm tra xem đây là R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Vì vậy, các hệ số hồi quy logistic là các phép biến đổi chính xác của tỷ lệ đến từ bảng.
Kết quả cuối cùng là chúng ta chắc chắn có thể phân tích tập dữ liệu này bằng hồi quy logistic nếu chúng ta có dữ liệu đến từ một loạt các biến ngẫu nhiên Bernoulli, nhưng hóa ra không khác gì phân tích trực tiếp bảng dự phòng kết quả.
Khi bạn có nhiều hơn một yếu tố dự đoán và tất cả các yếu tố dự đoán là biến nhị phân, bạn có thể điều chỉnh mô hình bằng cách sử dụng hồi quy logic [1] (lưu ý đó là "Logic" chứ không phải "Logistic"). Nó hữu ích khi bạn tin rằng hiệu ứng tương tác giữa các yếu tố dự đoán của bạn là nổi bật. Có một triển khai trong R (LogicReg
gói).
[1] Ruczinski, I., Kooperberg, C., & LeBlanc, M. (2003). Hồi quy logic. Tạp chí thống kê tính toán và đồ họa, 12 (3), 475-511.