Tôi có một số câu hỏi liên quan đến đặc điểm kỹ thuật và giải thích GLMM. 3 câu hỏi chắc chắn là thống kê và 2 câu hỏi cụ thể hơn về R. Tôi đang đăng ở đây vì cuối cùng tôi nghĩ vấn đề là giải thích kết quả GLMM.
Tôi hiện đang cố gắng để phù hợp với một GLMM. Tôi đang sử dụng dữ liệu điều tra dân số Hoa Kỳ từ Cơ sở dữ liệu theo chiều dọc . Quan sát của tôi là vùng điều tra dân số. Biến phụ thuộc của tôi là số lượng đơn vị nhà ở bỏ trống và tôi quan tâm đến mối quan hệ giữa vị trí tuyển dụng và biến kinh tế xã hội. Ví dụ ở đây rất đơn giản, chỉ cần sử dụng hai hiệu ứng cố định: phần trăm dân số không phải là người da trắng (chủng tộc) và thu nhập hộ gia đình trung bình (giai cấp), cộng với sự tương tác của họ. Tôi muốn bao gồm hai hiệu ứng ngẫu nhiên lồng nhau: các vùng trong vòng nhiều thập kỷ và nhiều thập kỷ, tức là (thập kỷ / đường). Tôi đang xem xét những điều ngẫu nhiên này trong một nỗ lực để kiểm soát sự tự tương quan không gian (tức là giữa các vùng) và thời gian (tức là giữa các thập kỷ). Tuy nhiên, tôi cũng quan tâm đến thập kỷ như một hiệu ứng cố định, vì vậy tôi cũng bao gồm nó như là một yếu tố cố định.
Vì biến độc lập của tôi là biến số nguyên không âm, nên tôi đã cố gắng điều chỉnh các GLMM nhị thức và nhị phân âm. Tôi đang sử dụng nhật ký của tổng số đơn vị nhà ở như một sự bù đắp. Điều này có nghĩa là các hệ số được hiểu là ảnh hưởng đến tỷ lệ trống, không phải tổng số nhà trống.
Tôi hiện đang có kết quả cho một Poisson và GLMM nhị thức âm tính được ước tính bằng cách sử dụng glmer và glmer.nb từ lme4 . Việc giải thích các hệ số có ý nghĩa với tôi dựa trên kiến thức của tôi về dữ liệu và khu vực nghiên cứu.
Nếu bạn muốn dữ liệu và tập lệnh thì chúng nằm trên Github của tôi . Kịch bản bao gồm nhiều điều tra mô tả hơn tôi đã làm trước khi xây dựng các mô hình.
Đây là kết quả của tôi:
Mô hình Poisson
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
Mô hình nhị thức âm
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
Xét nghiệm Poisson DHARMa
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
Xét nghiệm DHARMa nhị thức âm tính
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
Lô đất DHARMa
Poisson
Nhị thức âm
Câu hỏi thống kê
Vì tôi vẫn đang tìm ra GLMM, tôi cảm thấy không an toàn về đặc điểm kỹ thuật và diễn giải. Tôi có một số câu hỏi:
Dường như dữ liệu của tôi không hỗ trợ sử dụng mô hình Poisson và do đó tôi tốt hơn với nhị thức âm. Tuy nhiên, tôi luôn nhận được cảnh báo rằng các mô hình nhị thức âm tính của tôi đạt đến giới hạn lặp của chúng, ngay cả khi tôi tăng giới hạn tối đa. "Trong theta.ml (Y, mu, weights = object @ resp $ weights, giới hạn = giới hạn ,: đạt đến giới hạn lặp lại." Điều này xảy ra khi sử dụng khá nhiều thông số kỹ thuật khác nhau (ví dụ: mô hình tối thiểu và tối đa cho cả hiệu ứng cố định và ngẫu nhiên). Tôi cũng đã thử xóa các ngoại lệ trong phần phụ thuộc của mình (gộp, tôi biết!), Vì 1% giá trị hàng đầu là rất nhiều ngoại lệ (99% dưới cùng từ 0-1012, top 1% từ 1013-5213). Tôi cũng không có bất kỳ ảnh hưởng nào đến các lần lặp và rất ít ảnh hưởng đến các hệ số. Tôi không bao gồm các chi tiết đó ở đây. Các hệ số giữa Poisson và nhị thức âm cũng khá giống nhau. Là sự thiếu hội tụ này là một vấn đề? Mô hình nhị thức âm có phù hợp không? Tôi cũng đã chạy mô hình nhị thức âm bằng cách sử dụngAllFit và không phải tất cả các trình tối ưu hóa đưa ra cảnh báo này (bobyqa, Nelder Mead và nlminbw thì không).
Phương sai cho hiệu ứng cố định trong thập kỷ của tôi luôn ở mức rất thấp hoặc 0. Tôi hiểu điều này có thể có nghĩa là mô hình này quá phù hợp. Lấy thập kỷ ra khỏi các hiệu ứng cố định sẽ làm tăng phương sai hiệu ứng ngẫu nhiên trong thập kỷ lên 0,2620 và không ảnh hưởng nhiều đến các hệ số hiệu ứng cố định. Có bất cứ điều gì sai khi để nó trong? Tôi ổn khi giải thích nó đơn giản là không cần thiết để giải thích giữa phương sai quan sát.
Những kết quả này cho thấy tôi nên thử các mô hình không lạm phát? DHARMa dường như đề xuất lạm phát bằng không có thể không phải là vấn đề. Nếu bạn nghĩ tôi vẫn nên thử, xem bên dưới.
Câu hỏi R
Tôi sẽ sẵn sàng thử các mô hình có độ phồng bằng 0, nhưng tôi không chắc gói nào có tác dụng ngẫu nhiên lồng nhau cho Poisson không phồng và GLMM nhị phân âm. Tôi sẽ sử dụng glmmADMB để so sánh AIC với các mô hình không tăng, nhưng nó bị hạn chế ở một hiệu ứng ngẫu nhiên duy nhất nên không hoạt động cho mô hình này. Tôi có thể thử MCMCglmm, nhưng tôi không biết số liệu thống kê của Bayes nên điều đó cũng không hấp dẫn. Còn lựa chọn nào khác không?
Tôi có thể hiển thị các hệ số lũy thừa trong tóm tắt (mô hình) hay tôi phải thực hiện ngoài tóm tắt như tôi đã làm ở đây?
bobyqa
tối ưu hóa và nó không tạo ra bất kỳ cảnh báo nào. Có vấn đề gì vậy? Chỉ cần sử dụng bobyqa
.
bobyqa
hội tụ tốt hơn trình tối ưu hóa mặc định (và tôi nghĩ rằng tôi đã đọc ở đâu đó rằng nó sẽ trở thành mặc định trong các phiên bản tương lai của lme4
). Tôi không nghĩ bạn cần lo lắng về việc không hội tụ với trình tối ưu hóa mặc định nếu nó không hội tụ bobyqa
.
decade
cả cố định và ngẫu nhiên không có ý nghĩa. Hoặc là cố định và chỉ bao gồm(1 | decade:TRTID10)
ngẫu nhiên (tương đương với(1 | TRTID10)
giả định rằng bạnTRTID10
không có cùng cấp độ trong các thập kỷ khác nhau) hoặc xóa nó khỏi các hiệu ứng cố định. Chỉ với 4 cấp độ, bạn có thể sửa nó tốt hơn: khuyến nghị thông thường là phù hợp với các hiệu ứng ngẫu nhiên nếu một cấp có 5 cấp trở lên.