Làm thế nào để giải thích các hệ số trong hồi quy Poisson?


64

Làm cách nào tôi có thể diễn giải các tác động chính (hệ số cho yếu tố mã hóa giả) trong hồi quy Poisson?

Giả sử ví dụ sau:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

Đầu ra là:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Tôi biết rằng tỷ lệ sự cố cho numberofdrugsexp(-0.023)=0.977. Nhưng làm thế nào để tôi giải thích các tác động chính cho các biến giả?


Một câu trả lời tương tự (nhưng được đóng khung nhiều hơn về mặt toán học) có thể được tìm thấy ở đây: Cách diễn giải các ước tính tham số trong kết quả Poisson GLM .
gung - Phục hồi Monica

Thật thú vị khi câu hỏi được tham chiếu đã bị đóng ngoài chủ đề. (Tôi không đồng ý rằng nó không có chủ đề, vì bất kỳ câu trả lời nào cũng sẽ áp dụng cho đầu ra của bất kỳ chương trình thống kê nào trả về bảng hệ số cho người dùng và đồng ý với bạn rằng nó rất xứng đáng trên cơ sở đối với tôi là một bản sao.) Dường như với tôi rằng cộng đồng SO quá "chặt chẽ" đối với các câu hỏi yêu cầu giải thích đầu ra từ R. Họ không thực sự có chủ đề cho StackOverflow vì không có gợi ý nào là cần trợ giúp mã hóa.
DWin

@DWin, tôi không nghĩ việc diễn giải kết quả thống kê là lạc đề về Xác thực chéo . Tôi đã bỏ phiếu để đóng câu hỏi đó như là một bản sao của điều này. Những người khác dường như đã bỏ phiếu OT, tôi tập hợp lại, bởi vì dường như họ cho rằng OP "kết xuất máy tính của họ ở đó và [hy vọng ai đó sẽ] chạy phân tích chỉ số cho [họ]".
gung - Phục hồi Monica

1
@gung: Tôi đã rõ ràng rằng đó không phải là bạn đã gọi nó là OT. Nhận xét của bạn đã rõ ràng về điểm đó. (Tôi nghĩ rằng tôi đã đồng ý với bạn.) "Lý do" được liệt kê trong một cuộc bỏ phiếu chặt chẽ thường là một quyết định đa số hoặc đa số.
DWin

Câu trả lời:


56

Hệ số lũy thừa numberofdrugslà thuật ngữ nhân để sử dụng để tính toán ước tính healthvaluekhi numberofdrugstăng thêm 1 đơn vị. Trong trường hợp các biến phân loại (yếu tố), hệ số lũy thừa là thuật ngữ nhân với mức cơ sở (yếu tố đầu tiên) cho biến đó (vì R sử dụng tương phản điều trị theo mặc định). Đây exp(Intercept)là tỷ lệ cơ bản và tất cả các ước tính khác sẽ liên quan đến nó.

Trong ví dụ của bạn, ước tính healthvaluecho một người có 2ma túy "placebo"improvement=="none"sẽ là (sử dụng phép cộng bên trong exp như tương đương với phép nhân):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

Trong khi ai đó trên 4ma túy, "treated""some"cải thiện sẽ có một ước tính healthvaluecủa

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

ĐỊA CHỈ: Đây là ý nghĩa của "phụ gia trên thang đo log". "Phụ gia theo thang tỷ lệ cược log" là cụm từ mà giáo viên của tôi, Barbara McKnight, đã sử dụng khi nhấn mạnh sự cần thiết phải sử dụng tất cả các hệ số thuật ngữ áp dụng trong hồi quy logistic khi thực hiện bất kỳ loại dự đoán nào. Trước tiên, bạn thêm tất cả các hệ số nhân các giá trị đồng biến và sau đó lũy thừa. Cách để trả về các hệ số từ các đối tượng hồi quy trong R nói chung là sử dụng coef()hàm trích xuất (được thực hiện với một nhận thức ngẫu nhiên khác nhau bên dưới):

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

Vì vậy, việc tính toán ước tính cho một đối tượng với 4thuốc "treated", với "some"sự cải thiện sẽ là:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

Và bộ dự báo tuyến tính cho trường hợp đó phải là tổng của:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

Những nguyên tắc này nên áp dụng cho bất kỳ gói thống kê nào trả về bảng hệ số cho người dùng. Phương pháp và nguyên tắc chung chung hơn có thể xuất hiện từ việc tôi sử dụng R.


Tôi đang sao chép các bình luận được chọn làm rõ vì chúng 'biến mất' trong màn hình mặc định:

Q: Vì vậy, bạn giải thích các hệ số là tỷ lệ! Cảm ơn bạn! - MarkDollar

A: Các hệ số là Natural_logarithms của các tỷ lệ. - DWin

Câu 2: Trong trường hợp đó, trong hồi quy poisson, các hệ số lũy thừa cũng được gọi là "tỷ lệ cược"? - oort

A2: Không. Nếu đó là hồi quy logistic thì chúng sẽ là hồi quy Poisson, trong đó LHS là số sự kiện và mẫu số ngầm là con số có nguy cơ, thì các hệ số lũy thừa là "tỷ lệ tỷ lệ" hoặc "rủi ro tương đối".


Vì vậy, nó cho phép bạn bỏ phiếu hai lần? Thật tuyệt Tôi nghĩ rằng việc cung cấp một triển khai mã R của việc giải thích có thể giải cứu nó khỏi các lực lượng phân loại. OP sáng tác một ví dụ khép kín tốt đẹp. Có lẽ tôi nên đã chứng minh một chức năng trích xuất, vì vậy tôi nghĩ rằng tôi sẽ làm được.
DWin

Vâng, tôi đã nâng cao phản hồi của bạn về SO, sau đó nó chuyển đến đây và tôi đã nâng cấp trở lại :)
Brandon Bertelsen

Cảm ơn cho đến nay! Tôi biết thực tế giữa các hình nộm và dấu hiệu, nhưng tôi chỉ quan tâm đến cách diễn giải các Hiệu ứng chính (tôi đã đánh dấu chúng). Có thể lấy tỷ lệ không thường xuyên từ một Hiệu ứng chính, ví dụ cho hình nộm được xử lý 'exp (-0.012) = 0,99' và diễn giải nó là tốc độ mà healtvalue giảm, khi chuyển từ loại tham chiếu sang điều trị? Nó phải vậy chứ?
MarkDollar

Các hệ số lũy thừa luôn được hiểu là tỷ số. Tỷ lệ 'cái gì' đến 'cái gì' phụ thuộc vào các đơn vị phân tích. 'Tỷ lệ' là khác nhau, có một số ẩn và giá trị thời gian. Vì vậy, nếu bạn sẵn sàng thay đổi thuật ngữ của mình, thì có lẽ, "có". Câu trả lời hay nhất đến từ việc mô tả đầy đủ tình huống phân tích.
DWin

Ah ok đây là những gì tôi muốn biết. Vì vậy, bạn giải thích các hệ số là tỷ lệ! Cảm ơn bạn!
MarkDollar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.