Giải thích các thuật ngữ tương tác trong hồi quy logit với các biến phân loại


25

Tôi có dữ liệu từ một thử nghiệm khảo sát trong đó người trả lời được phân ngẫu nhiên vào một trong bốn nhóm:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Trong khi ba nhóm điều trị thay đổi một chút trong kích thích được áp dụng, sự khác biệt chính mà tôi quan tâm là giữa nhóm kiểm soát và nhóm điều trị. Vì vậy, tôi đã xác định một biến giả Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Trong khảo sát, những người được hỏi đã được yêu cầu (trong số những thứ khác) để chọn điều nào trong hai điều họ thích:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Sau đó, sau khi nhận được một số kích thích được xác định bởi nhóm điều trị của họ (và không có gì nếu họ thuộc nhóm đối chứng), những người được hỏi được yêu cầu lựa chọn giữa hai điều giống nhau:

> summary(df$Choice)
  A    B 
149  101 

Tôi muốn biết liệu việc nằm trong một trong ba nhóm điều trị có ảnh hưởng đến sự lựa chọn mà người trả lời đưa ra trong câu hỏi cuối cùng này không. Giả thuyết của tôi là những người trả lời được điều trị có nhiều khả năng lựa chọn Ahơn B.

Cho rằng tôi đang làm việc với dữ liệu phân loại, tôi đã quyết định sử dụng hồi quy logit (hãy thoải mái bấm chuông nếu bạn cho rằng điều đó không chính xác). Vì người trả lời được chỉ định ngẫu nhiên, tôi có ấn tượng rằng tôi không nhất thiết phải kiểm soát các biến khác (ví dụ: nhân khẩu học), vì vậy tôi đã bỏ qua những câu hỏi này. Mô hình đầu tiên của tôi chỉ đơn giản là như sau:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Tôi có ấn tượng rằng việc đánh chặn có ý nghĩa thống kê không phải là thứ có ý nghĩa có thể giải thích được. Tôi nghĩ có lẽ tôi nên bao gồm một thuật ngữ tương tác như sau:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Bây giờ tình trạng người trả lời như trong một nhóm điều trị có hiệu quả mong đợi. Đây có phải là một bộ các bước hợp lệ? Làm thế nào tôi có thể giải thích thuật ngữ tương tác ControlFALSE:PreferA? Các hệ số khác vẫn là tỷ lệ cược log?


Câu trả lời của tôi ở đây có liên quan: stats.stackexchange.com/questions/246873/ trên
kjetil b halvorsen

Câu trả lời:


31

Tôi giả sử rằng PreferA = 1 khi người ta thích A và 0 hơn và ControlFALSE = 1 khi được xử lý và 0 khi điều khiển.

Tỷ lệ cược của A khi một người không làm như vậy trước đây và không được điều trị (ControlFALSE = 0 và PreferA = 0) là , tức là có 23 người thích A cho mọi người như vậy thích B. Vì vậy, A rất phổ biến.điểm kinh nghiệm(3.135)= =23

Ảnh hưởng của điều trị đề cập đến một người không thích A trước đó (PreferA = 0). Trong trường hợp đó, tỷ lệ cược cơ sở giảm theo một yếu tố hoặc khi cô ấy phải chịu điều trị. Vì vậy, tỷ lệ chọn A cho những người được điều trị và không thích A trước đây làđiểm kinh nghiệm(-2.309)= =.099(1-.099)×100%= =-90,1%.099*23= =2.3 , vì vậy có 2,3 người thích A cho mọi người thích B. Vì vậy, trong nhóm này A vẫn phổ biến hơn hơn B, nhưng ít hơn so với nhóm không được điều trị / đường cơ sở.

Ảnh hưởng của việc thích A trước đây đề cập đến một người là người kiểm soát (ControlFALSE = 0). Trong trường hợp đó, tỷ lệ cược ban đầu giảm bởi một yếu tố hoặc khi ai đó ưa thích Một trước đó. (Vì vậy, những người đã định trước A trước đây ít có khả năng làm điều đó hơn bây giờ. Điều đó có hợp lý không?)0,06-99,4%

Hiệu quả tương tác so sánh hiệu quả điều trị đối với những người thích A trước đó và những người không thích. Nếu một người thích A trước đó (PreferA = 1) thì tỷ lệ chênh lệch điều trị tăng theo hệ số . Vì vậy, tỷ lệ chênh lệch điều trị cho những người thích A trước đây là . Ngoài ra, tỷ lệ chênh lệch điều trị cho những người thích A trước đây có thể được tính là .17.3 × .099 = 1.71 điểm kinh nghiệm ( 2.850 - 2.309 )điểm kinh nghiệm(2.850)= =17.317.3×.099= =1,71điểm kinh nghiệm(2.850-2.309)

Vì vậy, hằng số lũy thừa cung cấp cho bạn tỷ lệ cược cơ bản , hệ số lũy thừa của các hiệu ứng chính cung cấp cho bạn tỷ lệ tỷ lệ cược khi biến khác bằng 0 và hệ số lũy thừa của các thuật ngữ tương tác cho bạn biết tỷ lệ thay đổi tỷ lệ cược .


Cảm ơn bạn Maarten, điều này rất hữu ích vì đây là câu trả lời của bạn cho câu hỏi liên quan khác của tôi. Tôi chỉ muốn một chút làm rõ về một điểm, mặc dù. Như tôi đã đề cập trong câu hỏi khác của mình, tôi lo ngại về tính hợp lệ thống kê của những gì tôi đã làm ở đây vì thực tế ControlFALSEcó giá trị p cao trong mô hình đầu tiên và sau đó là một giá trị khá thấp trong mô hình thứ hai. Áp dụng câu trả lời của bạn cho câu hỏi khác của tôi cho trường hợp cụ thể này, bạn nói rằng điều này có thể xảy ra nếu Controlcó tác động tiêu cực đến một nhóm Prefervà ảnh hưởng tích cực đến nhóm kia.
Pygmalion

(chạy ra khỏi không gian) Sự giải thích đó có ý nghĩa ở đây không? Tôi không chắc chắn chính xác làm thế nào để áp dụng nó trực tiếp.
Pygmalion

Hiệu quả của ControlFALSEmô hình thứ nhất là hiệu quả điều trị cho cả những người thích A trước đó và những người không thích, trong khi hiệu quả ở mô hình thứ hai chỉ là hiệu quả điều trị cho những người không thích A trước đó. Cho dù điều đó có ổn hay không không phải là một câu hỏi thống kê, nhưng liệu điều đó có ý nghĩa thực sự hay không.
Maarten Buis

@MaartenBuis Giải thích tuyệt vời. Làm thế nào bạn sẽ làm các phép tính tương đương cho khoảng tin cậy của các ước tính? Để dễ giải thích, tôi thường phân tầng các mô hình logistic (ví dụ: theo ưu tiên trước trong ví dụ này) và sử dụng thuật ngữ tương tác như một "thử nghiệm thống kê cho sự khác biệt đáng kể trong OR. Điều này có chấp nhận được không?
bobmcpop

2

Tôi cũng thấy bài viết này hữu ích trong việc diễn giải sự tương tác trong hồi quy logistic:

Chen, JJ (2003). Truyền đạt thông tin phức tạp: việc giải thích tương tác thống kê trong phân tích hồi quy logistic nhiều . Tạp chí sức khỏe cộng đồng Hoa Kỳ , 93 (9), 1376-1377.


4
Tôi đã cung cấp một tài liệu tham khảo đầy đủ (tiêu đề, tác giả, ngày tháng, tạp chí, v.v.) có nghĩa là đóng góp sẽ vẫn hữu ích nếu địa chỉ liên kết thay đổi. Nhưng bạn có thể mở rộng trên đó để tóm tắt nội dung? Mặt khác, đây thực sự là một nhận xét nhiều hơn là một câu trả lời - chúng tôi muốn các câu trả lời của chúng tôi được khép kín, vì vậy chúng có khả năng chống lại "liên kết thối". Ngoài ra, chúng tôi có thể chuyển đổi này thành một nhận xét cho bạn.
Cá bạc

Cảm ơn. Tôi đã liên kết NCBI nên tôi nghĩ nó sẽ ổn thôi. Tôi đồng ý với những thay đổi. Cảm ơn!
Deepseas

0

Sở thích của riêng tôi, khi cố gắng diễn giải các tương tác trong hồi quy logistic, là xem xét các xác suất dự đoán cho mỗi kết hợp các biến phân loại. Trong trường hợp của bạn, đây sẽ chỉ là 4 xác suất:

  1. Thích A, kiểm soát đúng
  2. Thích A, kiểm soát sai
  3. Thích B, kiểm soát đúng
  4. Thích B, kiểm soát sai

Khi tôi có các biến liên tục, tôi thường nhìn vào giá trị dự đoán ở các phân vị trung vị, thứ nhất và thứ ba.

Mặc dù điều này không trực tiếp giải thích theo từng hệ số, tôi thấy rằng nó thường cho phép tôi (và khách hàng của tôi) thấy những gì đang diễn ra một cách rõ ràng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.