Giúp diễn giải GLMM dữ liệu bằng cách sử dụng lme4 glmer và glmer.nb - nhị thức âm so với Poisson


9

Tôi có một số câu hỏi liên quan đến đặc điểm kỹ thuật và giải thích GLMM. 3 câu hỏi chắc chắn là thống kê và 2 câu hỏi cụ thể hơn về R. Tôi đang đăng ở đây vì cuối cùng tôi nghĩ vấn đề là giải thích kết quả GLMM.

Tôi hiện đang cố gắng để phù hợp với một GLMM. Tôi đang sử dụng dữ liệu điều tra dân số Hoa Kỳ từ Cơ sở dữ liệu theo chiều dọc . Quan sát của tôi là vùng điều tra dân số. Biến phụ thuộc của tôi là số lượng đơn vị nhà ở bỏ trống và tôi quan tâm đến mối quan hệ giữa vị trí tuyển dụng và biến kinh tế xã hội. Ví dụ ở đây rất đơn giản, chỉ cần sử dụng hai hiệu ứng cố định: phần trăm dân số không phải là người da trắng (chủng tộc) và thu nhập hộ gia đình trung bình (giai cấp), cộng với sự tương tác của họ. Tôi muốn bao gồm hai hiệu ứng ngẫu nhiên lồng nhau: các vùng trong vòng nhiều thập kỷ và nhiều thập kỷ, tức là (thập kỷ / đường). Tôi đang xem xét những điều ngẫu nhiên này trong một nỗ lực để kiểm soát sự tự tương quan không gian (tức là giữa các vùng) và thời gian (tức là giữa các thập kỷ). Tuy nhiên, tôi cũng quan tâm đến thập kỷ như một hiệu ứng cố định, vì vậy tôi cũng bao gồm nó như là một yếu tố cố định.

Vì biến độc lập của tôi là biến số nguyên không âm, nên tôi đã cố gắng điều chỉnh các GLMM nhị thức và nhị phân âm. Tôi đang sử dụng nhật ký của tổng số đơn vị nhà ở như một sự bù đắp. Điều này có nghĩa là các hệ số được hiểu là ảnh hưởng đến tỷ lệ trống, không phải tổng số nhà trống.

Tôi hiện đang có kết quả cho một Poisson và GLMM nhị thức âm tính được ước tính bằng cách sử dụng glmer và glmer.nb từ lme4 . Việc giải thích các hệ số có ý nghĩa với tôi dựa trên kiến ​​thức của tôi về dữ liệu và khu vực nghiên cứu.

Nếu bạn muốn dữ liệutập lệnh thì chúng nằm trên Github của tôi . Kịch bản bao gồm nhiều điều tra mô tả hơn tôi đã làm trước khi xây dựng các mô hình.

Đây là kết quả của tôi:

Mô hình Poisson

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: poisson  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34520.1  34580.6 -17250.1  34500.1     3132 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24211 -0.10799 -0.00722  0.06898  0.68129 

Random effects:
 Groups         Name        Variance Std.Dev.
 TRTID10:decade (Intercept) 0.4635   0.6808  
 decade         (Intercept) 0.0000   0.0000  
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612242   0.028904 -124.98  < 2e-16 ***
decade1980       0.302868   0.040351    7.51  6.1e-14 ***
decade1990       1.088176   0.039931   27.25  < 2e-16 ***
decade2000       1.036382   0.039846   26.01  < 2e-16 ***
decade2010       1.345184   0.039485   34.07  < 2e-16 ***
P_NONWHT         0.175207   0.012982   13.50  < 2e-16 ***
a_hinc          -0.235266   0.013291  -17.70  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009876    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.727  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.714  0.511  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.155  0.035 -0.134 -0.129  0.003  0.155   -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)

Mô hình nhị thức âm

Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
 Family: Negative Binomial(25181.5)  ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) +      (1 | decade/TRTID10)
   Data: scaled.mydata

     AIC      BIC   logLik deviance df.resid 
 34522.1  34588.7 -17250.1  34500.1     3131 

Scaled residuals: 
     Min       1Q   Median       3Q      Max 
-2.24213 -0.10816 -0.00724  0.06928  0.68145 

Random effects:
 Groups         Name        Variance  Std.Dev. 
 TRTID10:decade (Intercept) 4.635e-01 6.808e-01
 decade         (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups:  TRTID10:decade, 3142; decade, 5

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)     -3.612279   0.028946 -124.79  < 2e-16 ***
decade1980       0.302897   0.040392    7.50 6.43e-14 ***
decade1990       1.088211   0.039963   27.23  < 2e-16 ***
decade2000       1.036437   0.039884   25.99  < 2e-16 ***
decade2010       1.345227   0.039518   34.04  < 2e-16 ***
P_NONWHT         0.175216   0.012985   13.49  < 2e-16 ***
a_hinc          -0.235274   0.013298  -17.69  < 2e-16 ***
P_NONWHT:a_hinc  0.093417   0.009879    9.46  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
            (Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980  -0.693                                            
decade1990  -0.728  0.501                                     
decade2000  -0.728  0.502  0.530                              
decade2010  -0.715  0.512  0.517  0.518                       
P_NONWHT     0.016  0.007 -0.016 -0.015  0.006                
a_hinc      -0.023 -0.011  0.023  0.022 -0.009  0.221         
P_NONWHT:_h  0.154  0.035 -0.134 -0.129  0.003  0.155   -0.233

Xét nghiệm Poisson DHARMa

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more

Xét nghiệm DHARMa nhị thức âm tính

    One-sample Kolmogorov-Smirnov test

data:  simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided

    DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model

data:  simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more

Lô đất DHARMa

Poisson

Mô hình Poisson mô hình DHARMa

Nhị thức âm

Mô hình nhị thức âm tính âm mưu DHARMa

Câu hỏi thống kê

Vì tôi vẫn đang tìm ra GLMM, tôi cảm thấy không an toàn về đặc điểm kỹ thuật và diễn giải. Tôi có một số câu hỏi:

  1. Dường như dữ liệu của tôi không hỗ trợ sử dụng mô hình Poisson và do đó tôi tốt hơn với nhị thức âm. Tuy nhiên, tôi luôn nhận được cảnh báo rằng các mô hình nhị thức âm tính của tôi đạt đến giới hạn lặp của chúng, ngay cả khi tôi tăng giới hạn tối đa. "Trong theta.ml (Y, mu, weights = object @ resp $ weights, giới hạn = giới hạn ,: đạt đến giới hạn lặp lại." Điều này xảy ra khi sử dụng khá nhiều thông số kỹ thuật khác nhau (ví dụ: mô hình tối thiểu và tối đa cho cả hiệu ứng cố định và ngẫu nhiên). Tôi cũng đã thử xóa các ngoại lệ trong phần phụ thuộc của mình (gộp, tôi biết!), Vì 1% giá trị hàng đầu là rất nhiều ngoại lệ (99% dưới cùng từ 0-1012, top 1% từ 1013-5213). Tôi cũng không có bất kỳ ảnh hưởng nào đến các lần lặp và rất ít ảnh hưởng đến các hệ số. Tôi không bao gồm các chi tiết đó ở đây. Các hệ số giữa Poisson và nhị thức âm cũng khá giống nhau. Là sự thiếu hội tụ này là một vấn đề? Mô hình nhị thức âm có phù hợp không? Tôi cũng đã chạy mô hình nhị thức âm bằng cách sử dụngAllFit và không phải tất cả các trình tối ưu hóa đưa ra cảnh báo này (bobyqa, Nelder Mead và nlminbw thì không).

  2. Phương sai cho hiệu ứng cố định trong thập kỷ của tôi luôn ở mức rất thấp hoặc 0. Tôi hiểu điều này có thể có nghĩa là mô hình này quá phù hợp. Lấy thập kỷ ra khỏi các hiệu ứng cố định sẽ làm tăng phương sai hiệu ứng ngẫu nhiên trong thập kỷ lên 0,2620 và không ảnh hưởng nhiều đến các hệ số hiệu ứng cố định. Có bất cứ điều gì sai khi để nó trong? Tôi ổn khi giải thích nó đơn giản là không cần thiết để giải thích giữa phương sai quan sát.

  3. Những kết quả này cho thấy tôi nên thử các mô hình không lạm phát? DHARMa dường như đề xuất lạm phát bằng không có thể không phải là vấn đề. Nếu bạn nghĩ tôi vẫn nên thử, xem bên dưới.

Câu hỏi R

  1. Tôi sẽ sẵn sàng thử các mô hình có độ phồng bằng 0, nhưng tôi không chắc gói nào có tác dụng ngẫu nhiên lồng nhau cho Poisson không phồng và GLMM nhị phân âm. Tôi sẽ sử dụng glmmADMB để so sánh AIC với các mô hình không tăng, nhưng nó bị hạn chế ở một hiệu ứng ngẫu nhiên duy nhất nên không hoạt động cho mô hình này. Tôi có thể thử MCMCglmm, nhưng tôi không biết số liệu thống kê của Bayes nên điều đó cũng không hấp dẫn. Còn lựa chọn nào khác không?

  2. Tôi có thể hiển thị các hệ số lũy thừa trong tóm tắt (mô hình) hay tôi phải thực hiện ngoài tóm tắt như tôi đã làm ở đây?


1
(2) là dễ dàng: có decadecả cố định và ngẫu nhiên không có ý nghĩa. Hoặc là cố định và chỉ bao gồm (1 | decade:TRTID10)ngẫu nhiên (tương đương với (1 | TRTID10)giả định rằng bạn TRTID10không có cùng cấp độ trong các thập kỷ khác nhau) hoặc xóa nó khỏi các hiệu ứng cố định. Chỉ với 4 cấp độ, bạn có thể sửa nó tốt hơn: khuyến nghị thông thường là phù hợp với các hiệu ứng ngẫu nhiên nếu một cấp có 5 cấp trở lên.
amip

1
Ngoài ra, hai lô của bạn xuất hiện giống hệt nhau.
amip

1
Về cảnh báo hội tụ - bạn đã nói trong (1) rằng bạn đã thử bobyqatối ưu hóa và nó không tạo ra bất kỳ cảnh báo nào. Có vấn đề gì vậy? Chỉ cần sử dụng bobyqa.
amip

1
Nhân tiện, tôi không hiểu tại sao bạn nói rằng "Dường như dữ liệu của tôi không hỗ trợ sử dụng mô hình Poisson".
amip

1
Theo kinh nghiệm của tôi bobyqahội tụ tốt hơn trình tối ưu hóa mặc định (và tôi nghĩ rằng tôi đã đọc ở đâu đó rằng nó sẽ trở thành mặc định trong các phiên bản tương lai của lme4). Tôi không nghĩ bạn cần lo lắng về việc không hội tụ với trình tối ưu hóa mặc định nếu nó không hội tụ bobyqa.
amip

Câu trả lời:


10

Tôi tin rằng có một số vấn đề quan trọng cần được giải quyết với ước tính của bạn.

Từ những gì tôi thu thập được bằng cách kiểm tra dữ liệu của bạn, các đơn vị của bạn không được nhóm theo địa lý, tức là các vùng được điều tra trong các quận. Do đó, sử dụng các vùng làm yếu tố nhóm là không phù hợp để nắm bắt sự không đồng nhất về không gian vì điều này có nghĩa là bạn có cùng số lượng cá thể như các nhóm (hoặc đặt một cách khác, tất cả các nhóm của bạn chỉ có một quan sát mỗi nhóm). Sử dụng chiến lược mô hình đa cấp cho phép chúng tôi ước tính phương sai ở cấp độ cá nhân, đồng thời kiểm soát phương sai giữa các nhóm. Vì mỗi nhóm của bạn chỉ có một cá nhân, nên phương sai giữa các nhóm của bạn giống với phương sai ở cấp độ cá nhân, do đó đánh bại mục đích của phương pháp đa cấp.

Mặt khác, hệ số nhóm có thể biểu diễn các phép đo lặp đi lặp lại theo thời gian. Ví dụ, trong trường hợp nghiên cứu theo chiều dọc, điểm "toán học" của một cá nhân có thể được lấy lại hàng năm, do đó chúng tôi sẽ có giá trị hàng năm cho mỗi học sinh trong n năm (trong trường hợp này, yếu tố nhóm là học sinh như chúng tôi có n số lượng quan sát "lồng nhau" trong học sinh). Trong trường hợp của bạn, bạn đã lặp đi lặp lại các biện pháp của từng nhóm điều tra dân số decade. Do đó, bạn có thể sử dụng TRTID10biến của mình làm yếu tố nhóm để nắm bắt "giữa phương sai thập kỷ". Điều này dẫn đến 3142 quan sát được lồng trong 635 vùng, với khoảng 4 và 5 quan sát trên mỗi đường điều tra dân số.

Như đã đề cập trong một nhận xét, sử dụng decadenhư một yếu tố nhóm là không phù hợp, vì bạn chỉ có khoảng 5 thập kỷ cho mỗi đường điều tra dân số, và hiệu quả của chúng có thể được nắm bắt tốt hơn decadekhi giới thiệu như một hiệp phương sai.

Thứ hai, để xác định xem dữ liệu của bạn có nên được mô hình hóa bằng mô hình nhị phân âm hay nhị phân (hoặc cách tiếp cận không tăng cao). Xem xét số lượng quá mức trong dữ liệu của bạn. Đặc tính cơ bản của phân phối Poisson là đẳng thức, có nghĩa là giá trị trung bình bằng phương sai của phân phối. Nhìn vào dữ liệu của bạn, có một điều khá rõ ràng là có quá nhiều sự thay thế. Phương sai lớn hơn nhiều so với phương tiện.

library(dplyr)    
 dispersionstats <- scaled.mydata %>%
 + group_by(decade) %>%
 + summarise(
 + means = mean(R_VAC),
 + variances = var(R_VAC),
 + ratio = variances/means)

##   dispersionstats
##   # A tibble: 5 x 5
##   decade     means variances     ratio 
##    <int>     <dbl>     <dbl>     <dbl> 
## 1   1970  45.43513   4110.89  90.47822 
## 2   1980 103.52365  17323.34 167.33707 
## 3   1990 177.68038  62129.65 349.67087 
## 4   2000 190.23150  91059.60 478.67784 
## 5   2010 247.68246 126265.60 509.78821 

Tuy nhiên, để xác định xem nhị thức âm tính có phù hợp hơn về mặt thống kê hay không, một phương pháp tiêu chuẩn là thực hiện kiểm tra tỷ lệ khả năng giữa Poisson và mô hình nhị thức âm tính, điều này cho thấy rằng negbin phù hợp hơn.

library(MASS)
library(lmtest)

modelformula <- formula(R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln))

poismodel <- glm(modelformula, data = scaled.mydata, family = "poisson")   
nbmodel <- glm.nb(modelformula, data = scaled.mydata)

lrtest(poismodel, nbmodel)

## Likelihood ratio test

##  Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)  
## Model 2: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
##   #Df  LogLik Df  Chisq Pr(>Chisq)
## 1   8 -154269
## 2   9  -17452  1 273634  < 2.2e-16 ***
##  ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Sau khi thiết lập điều này, một thử nghiệm tiếp theo có thể xem xét liệu phương pháp đa cấp (mô hình hỗn hợp) có được bảo hành bằng cách sử dụng phương pháp tương tự hay không, điều này cho thấy phiên bản đa cấp cung cấp phù hợp hơn. (Một thử nghiệm tương tự có thể được sử dụng để so sánh sự phù hợp của glmer giả sử phân phối poisson với đối tượng glmer.nb, miễn là các mô hình giống nhau.)

library(lme4)

glmmformula <- update(modelformula, . ~ . + (1|TRTID10))

nbglmm <- glmer.nb(glmmformula, data = scaled.mydata)

lrtest(nbmodel, nbglmm)

## Model 1: R_VAC ~ factor(decade) + P_NONWHT * a_hinc + offset(HU_ln)
## Model 2: R_VAC ~ factor(decade) + P_NONWHT + a_hinc + (1 | TRTID10) +
##     P_NONWHT:a_hinc + offset(HU_ln)
##   #Df LogLik Df Chisq Pr(>Chisq)
## 1   9 -17452
## 2  10 -17332  1 239.3  < 2.2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Về ước tính của các mô hình poisson và nb, chúng thực sự được cho là rất giống nhau, với sự khác biệt chính là các lỗi tiêu chuẩn, tức là nếu có hiện tượng quá mức, mô hình poisson có xu hướng cung cấp các lỗi tiêu chuẩn sai lệch. Lấy dữ liệu của bạn làm ví dụ:

poissonglmm <- glmer(glmmformula, data = scaled.mydata)
summary(poissonglmm)

## Random effects:
##  Groups  Name        Variance Std.Dev.
## TRTID10 (Intercept) 0.2001   0.4473
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.876013   0.020602 -139.60   <2e-16 ***
## factor(decade)1980  0.092597   0.007602   12.18   <2e-16 ***
## factor(decade)1990  0.903543   0.007045  128.26   <2e-16 ***
## factor(decade)2000  0.854821   0.006913  123.65   <2e-16 ***
## factor(decade)2010  0.986126   0.006723  146.67   <2e-16 ***
## P_NONWHT           -0.125500   0.014007   -8.96   <2e-16 ***
## a_hinc             -0.107335   0.001480  -72.52   <2e-16 ***
## P_NONWHT:a_hinc     0.160937   0.003117   51.64   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

summary(nbglmm)
## Random effects:
##  Groups  Name        Variance Std.Dev.
##  TRTID10 (Intercept) 0.09073  0.3012
## Number of obs: 3142, groups:  TRTID10, 635

## Fixed effects:
##                     Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.797861   0.056214  -49.77  < 2e-16 ***
## factor(decade)1980  0.118588   0.039589    3.00  0.00274 **
## factor(decade)1990  0.903440   0.038255   23.62  < 2e-16 ***
## factor(decade)2000  0.843949   0.038172   22.11  < 2e-16 ***
## factor(decade)2010  1.068025   0.037376   28.58  < 2e-16 ***
## P_NONWHT            0.020012   0.089224    0.22  0.82253
## a_hinc             -0.129094   0.008109  -15.92  < 2e-16 ***
## P_NONWHT:a_hinc     0.149223   0.018967    7.87 3.61e-15 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Lưu ý rằng các ước tính hệ số rất giống nhau, sự khác biệt chính chỉ là tầm quan trọng của một trong các hiệp phương sai của bạn, cũng như sự khác biệt về phương sai hiệu ứng ngẫu nhiên, điều này cho thấy phương sai mức đơn vị được bắt bởi tham số quá mức trong nb mô hình ( thetagiá trị trong đối tượng glmer.nb) nắm bắt một số phương sai giữa các đường được chụp bởi các hiệu ứng ngẫu nhiên.

Về các hệ số lũy thừa (và khoảng tin cậy liên quan), bạn có thể sử dụng như sau:

fixed <- fixef(nbglmm)
confnitfixed <- confint(nbglmm, parm = "beta_", method = "Wald") # Beware: The Wald method is less accurate but much, much faster.

# The exponentiated coefficients are also known as Incidence Rate Ratios (IRR)
IRR <- exp(cbind(fixed, confintfixed)
IRR
##                         fixed      2.5 %     97.5 %
## (Intercept)        0.06094028 0.05458271 0.06803835
## factor(decade)1980 1.12590641 1.04184825 1.21674652
## factor(decade)1990 2.46807856 2.28979339 2.66024515
## factor(decade)2000 2.32553168 2.15789585 2.50619029
## factor(decade)2010 2.90962703 2.70410073 3.13077444
## P_NONWHT           1.02021383 0.85653208 1.21517487
## a_hinc             0.87889172 0.86503341 0.89297205
## P_NONWHT:a_hinc    1.16093170 1.11856742 1.20490048

Suy nghĩ cuối cùng, liên quan đến lạm phát bằng không. Không có triển khai đa cấp (ít nhất là tôi biết) về mô hình poisson hoặc negbin được thổi phồng bằng 0 cho phép bạn chỉ định một phương trình cho thành phần được thổi phồng bằng không của hỗn hợp. các glmmADMBmô hình cho phép bạn ước tính một tham số lạm phát liên tục bằng không. Một cách tiếp cận khác là sử dụng zeroinflchức năng trong psclgói, mặc dù điều này không hỗ trợ các mô hình đa cấp. Do đó, bạn có thể so sánh mức độ phù hợp của nhị thức âm đơn cấp, với nhị thức âm cấp 0 đơn. Rất có thể là nếu lạm phát bằng 0 không có ý nghĩa đối với các mô hình cấp đơn, thì có khả năng nó sẽ không có ý nghĩa đối với đặc tả đa cấp.

Phụ lục

Nếu bạn lo ngại về tự động tương quan không gian, bạn có thể kiểm soát điều này bằng cách sử dụng một số hình thức hồi quy trọng số địa lý (mặc dù tôi tin rằng điều này sử dụng dữ liệu điểm, không phải các khu vực). Ngoài ra, bạn có thể nhóm các vùng điều tra dân số của mình theo một yếu tố nhóm bổ sung (tiểu bang, hạt) và bao gồm điều này như một hiệu ứng ngẫu nhiên. Cuối cùng, và tôi không chắc liệu điều này có hoàn toàn khả thi hay không, có thể kết hợp sự phụ thuộc không gian bằng cách sử dụng, ví dụ, số lượng trung bình của các R_VACnước láng giềng thứ nhất như là một hiệp phương sai. Trong mọi trường hợp, trước các phương pháp như vậy, sẽ rất hợp lý để xác định xem liệu hiện tượng tự tương quan không gian có thực sự hay không (sử dụng các xét nghiệm LISA I, LISA và các phương pháp tương tự của Global Moran).


1
brmscó thể phù hợp với các mô hình nhị thức âm không thổi phồng với hiệu ứng ngẫu nhiên.
Andrew M

@prestevez và @Andrew, điều này siêu hữu ích! Nó đã làm rõ rất nhiều vấn đề tôi đang gặp phải. Cảm ơn đã dành thời gian để dẫn tôi đi qua nó. Tôi sẽ thử lắp mô hình hỗn hợp zinb từ brmsvà so sánh mô hình đó với mô hình glmer.nb như đã nêu ở trên. Tôi cũng sẽ thử bao gồm địa điểm được xác định theo điều tra dân số (về cơ bản là đô thị, ~ 170 nhóm) làm yếu tố nhóm cho các hiệu ứng ngẫu nhiên (chỉ có 5 quận trong dữ liệu, vì vậy tôi sẽ không sử dụng điều đó). Tôi cũng sẽ kiểm tra sự tự tương quan không gian của phần dư bằng Global Moran's I. Tôi sẽ báo cáo lại khi tôi thực hiện điều đó.
Samuel Walker

@AndrewM, cảm ơn thông tin! Tôi đã không nhận thức được các brms và không quen thuộc với các số liệu thống kê bayes nói chung, mặc dù bây giờ tôi khá thích thú để xem xét nó.
uy tín

1
@SamuelWalker Rất vui vì nó hữu ích! Đô thị có vẻ như là một lựa chọn tốt (tôi không quen với dữ liệu điều tra dân số Hoa Kỳ nên tôi đã đề xuất các quận mà không thực sự biết liệu chúng có phù hợp hay không). Về việc so sánh glmer.nb phù hợp với một đối tượng brms, tôi không chắc chắn ai sẽ là cách tốt nhất để so sánh chúng, vì tôi không quen với thống kê bayesian. Chúc may mắn!
uy tín

1
@SamuelWalker một giải pháp thay thế tiềm năng có thể phù hợp với cả mô hình negbin tiêu chuẩn và không thổi phồng bằng cách sử dụng brmsvà so sánh chúng.
uy tín
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.