phân loại một biến biến nó từ không đáng kể thành quan trọng


17

Tôi có một biến số hóa ra không đáng kể trong mô hình hồi quy logistic đa biến. Tuy nhiên, khi tôi phân loại nó thành các nhóm, đột nhiên nó trở nên quan trọng. Điều này rất trực quan với tôi: khi phân loại một biến, chúng tôi cung cấp một số thông tin.

Làm sao có thể?

Câu trả lời:


25

Một lời giải thích khả dĩ sẽ là sự phi tuyến tính trong mối quan hệ giữa kết quả của bạn và người dự đoán.

Dưới đây là một ví dụ nhỏ. Chúng tôi sử dụng một công cụ dự đoán thống nhất trên . Kết quả, tuy nhiên, không tuyến tính phụ thuộc vào yếu tố dự báo, nhưng trên vuông của dự báo: TRUE có nhiều khả năng cho cả và , nhưng ít có khả năng cho . Trong trường hợp này, một mô hình tuyến tính sẽ xuất hiện không đáng kể, nhưng việc cắt bộ dự đoán thành các khoảng làm cho nó có ý nghĩa.[1,1]x1x1x0

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Tuy nhiên, điều này không có nghĩa là phân biệt người dự đoán là cách tiếp cận tốt nhất. (Nó gần như không bao giờ.) Tốt hơn nhiều để mô hình hóa phi tuyến bằng cách sử dụng hoặc tương tự.


Có một số ví dụ mà sự rời rạc có thể hợp lý? Ví dụ: nếu bạn có một ngưỡng cụ thể (ví dụ: 18 tuổi), tại đó xảy ra chuyển đổi nhị phân trong kết quả. Tuổi số trong phạm vi 18+ có thể không đáng kể, nhưng tuổi nhị phân> 18 có thể có ý nghĩa?
ajrwhite

3
@ajrwhite: nó phụ thuộc vào lĩnh vực. Bất cứ nơi nào mà ngưỡng được mã hóa trong luật rời rạc có thể có ý nghĩa. Ví dụ: nếu bạn mô hình hóa hành vi bỏ phiếu, sẽ rất hợp lý để kiểm tra xem ai đó có thực sự đủ điều kiện để bỏ phiếu ở tuổi 18. Tương tự, ở Đức, thuế xe của bạn phụ thuộc vào chuyển động cơ của bạn và nhảy vào 1700, 1800, 1900, ... ccm , rất nhiều xe ô tô có các chuyển vị 1699, 1799, ... ccm (loại tự phân tách). Trong các ngành khoa học tự nhiên như sinh học, y học, tâm lý học, v.v., tôi đấu tranh để tìm một ví dụ mà sự rời rạc có ý nghĩa.
S. Kolassa - Tái lập Monica

7

Một cách có thể là nếu mối quan hệ rõ ràng là phi tuyến. Không thể nói (thiếu chi tiết) liệu điều này có thực sự giải thích những gì đang diễn ra không.

Bạn có thể tự kiểm tra. Đầu tiên, bạn có thể thực hiện một biểu đồ biến được thêm vào cho chính biến đó và bạn cũng có thể vẽ các hiệu ứng được trang bị trong phiên bản nhân tố của mô hình. Nếu giải thích là đúng, cả hai sẽ thấy một mô hình phi tuyến rõ rệt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.