Hồi quy logistic thông thường với chức năng liên kết khác


8

Xem xét một biến kết quả có bốn loại rõ ràng, được sắp xếp theo nó. Điều này có vẻ như là một cách sử dụng tốt của hồi quy logistic thông thường để ước tính các tỷ lệ lẻ cho tác động của hiệp phương sai trong việc di chuyển một đối tượng một "bước" lên thang.

Nhưng các đối tượng đặc biệt trải đều trong các danh mục, vì vậy một câu hỏi được đặt ra:

  • Là "giả định kết quả hiếm gặp" cho một OR để ước tính rủi ro tương đối vẫn đúng trong hồi quy logistic thông thường?
  • Nếu vậy, có thể thay đổi chức năng liên kết để ước tính trực tiếp rủi ro tương đối hay không và vẫn có thể sử dụng một cái gì đó giống như một xấp xỉ poisson với các lỗi tiêu chuẩn mạnh mẽ để xử lý các vấn đề hội tụ trong trường hợp như vậy?

Câu trả lời:


2

P(Z>z)= =điểm kinh nghiệm(-z)/(1+điểm kinh nghiệm(-z))

P(Z>z)= =điểm kinh nghiệm(-z)ÔiTôij= =Tôi(YTôij), (Tôi tin) các tần số tế bào là độc lập có điều kiện, và do đó có thể được mô hình hóa thông qua mô hình log-linear, đó chỉ là hồi quy Poisson. Điều này là yên tâm bởi vì việc giải thích các hệ số Poisson là một tỷ lệ tương đối. Mô hình hóa sự tương tác giữa biến trả lời là kết quả số và hệ số hồi quy dẫn đến việc giải thích chính xác.

Đó là, phù hợp với mô hình log-linear:

đăng nhập(NTôij|YTôi,XTôi,)= =η0Tôi(YTôi= =0)+Giáo dục+ηjTôi(YTôi==j)+βXTôi,+γtã (Y)XTôi,

Sử dụng ví dụ từ gói MASS: chúng tôi thấy hiệu quả mong muốn rằng rủi ro tương đối nhỏ hơn nhiều so với OR trong mọi trường hợp:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Cung cấp cho chúng tôi:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Trong đó 4 cột đầu tiên được suy luận từ mô hình log-linear và 3 cột thứ hai đến từ mô hình tỷ lệ cược tỷ lệ.

Câu trả lời này có lẽ là câu hỏi quan trọng nhất: làm thế nào để phù hợp với một mô hình như vậy. Tôi nghĩ rằng nó có thể được sử dụng để khám phá (các) xấp xỉ tương đối của OR cho các sự kiện hiếm gặp đối với RR.


1

Hãy giải quyết hai câu hỏi của bạn một cách riêng biệt:

Là "giả định kết quả hiếm gặp" cho một OR để ước tính rủi ro tương đối vẫn đúng trong hồi quy logistic thông thường?

Không hẳn vậy. Bạn đã tự nói rằng kết quả của bạn trải đều ở cả bốn loại, vì vậy không có loại nào sẽ đặc biệt hiếm.

Nếu vậy, có thể thay đổi chức năng liên kết để ước tính trực tiếp rủi ro tương đối hay không và vẫn có thể sử dụng một cái gì đó giống như một xấp xỉ poisson với các lỗi tiêu chuẩn mạnh mẽ để xử lý các vấn đề hội tụ trong trường hợp như vậy?

Bạn có thể, nhưng có một rủi ro là khi bạn sử dụng mô hình của mình để đưa ra dự đoán, xác suất dự đoán được ở trong một lớp có thể nhiều hơn 1.

YTôi~cmộttegorTôicmộttôi(pTôi);tôiogTôit(pTôi)= =Xβ
βpTôi là nhiều hơn một (và vì điều này nằm ngoài phạm vi của giả định tỷ lệ cược tỷ lệ, bạn không thể sử dụng nó để đưa vào các thành phần còn lại).

Điều này không thể xảy ra nếu bạn chỉ sử dụng mô hình của mình để dự đoán dữ liệu được đào tạo và ít có khả năng nếu

  • bạn có rất nhiều dữ liệu đào tạo
  • dữ liệu đào tạo của bạn bao gồm tất cả các kết hợp có thể có của hiệp phương sai (nếu chúng là phân loại) hoặc toàn bộ các hiệp phương sai (nếu chúng là số)

1
K

1
@AdamO nó có thể không phải là công thức bạn đã quen, nhưng nó là tương đương (miễn là Xbao gồm một đánh chặn). Tôi đã chọn nó vì nó nhấn mạnh những điểm phù hợp nhất với câu hỏi. (Rõ ràng là không tương đương khi bạn thay thế logit bằng log, nhưng công thức này dường như khái quát hóa tốt nhất)
JDL

1
YTôi

Những ràng buộc này được giải quyết bằng giả định tỷ lệ cược tỷ lệ. (Tôi đồng ý rằng chúng không được biểu thị trong phương trình tôi đã nêu)
JDL
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.