Tôi có dữ liệu từ một thử nghiệm khảo sát trong đó người trả lời được phân ngẫu nhiên vào một trong bốn nhóm:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Trong khi ba nhóm điều trị thay đổi một chút trong kích thích được áp dụng, sự khác biệt chính mà tôi quan tâm là giữa nhóm kiểm soát và nhóm điều trị. Vì vậy, tôi đã xác định một biến giả Control
:
> summary(df$Control)
TRUE FALSE
59 191
Trong khảo sát, những người được hỏi đã được yêu cầu (trong số những thứ khác) để chọn điều nào trong hai điều họ thích:
> summary(df$Prefer)
A B NA's
152 93 5
Sau đó, sau khi nhận được một số kích thích được xác định bởi nhóm điều trị của họ (và không có gì nếu họ thuộc nhóm đối chứng), những người được hỏi được yêu cầu lựa chọn giữa hai điều giống nhau:
> summary(df$Choice)
A B
149 101
Tôi muốn biết liệu việc nằm trong một trong ba nhóm điều trị có ảnh hưởng đến sự lựa chọn mà người trả lời đưa ra trong câu hỏi cuối cùng này không. Giả thuyết của tôi là những người trả lời được điều trị có nhiều khả năng lựa chọn A
hơn B
.
Cho rằng tôi đang làm việc với dữ liệu phân loại, tôi đã quyết định sử dụng hồi quy logit (hãy thoải mái bấm chuông nếu bạn cho rằng điều đó không chính xác). Vì người trả lời được chỉ định ngẫu nhiên, tôi có ấn tượng rằng tôi không nhất thiết phải kiểm soát các biến khác (ví dụ: nhân khẩu học), vì vậy tôi đã bỏ qua những câu hỏi này. Mô hình đầu tiên của tôi chỉ đơn giản là như sau:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Tôi có ấn tượng rằng việc đánh chặn có ý nghĩa thống kê không phải là thứ có ý nghĩa có thể giải thích được. Tôi nghĩ có lẽ tôi nên bao gồm một thuật ngữ tương tác như sau:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Bây giờ tình trạng người trả lời như trong một nhóm điều trị có hiệu quả mong đợi. Đây có phải là một bộ các bước hợp lệ? Làm thế nào tôi có thể giải thích thuật ngữ tương tác ControlFALSE:PreferA
? Các hệ số khác vẫn là tỷ lệ cược log?