Chiến lược quyết định mô hình phù hợp cho dữ liệu đếm


16

Chiến lược phù hợp để quyết định sử dụng mô hình nào với dữ liệu đếm là gì? Tôi đã đếm dữ liệu mà tôi cần để mô hình hóa như một mô hình đa cấp và tôi được khuyến nghị (trên trang web này) rằng cách tốt nhất để làm điều này là thông qua các lỗi hoặc MCMCglmm. Tuy nhiên tôi vẫn đang cố gắng tìm hiểu về thống kê bayes và tôi nghĩ rằng trước tiên tôi nên thử điều chỉnh dữ liệu của mình dưới dạng mô hình tuyến tính tổng quát và bỏ qua cấu trúc lồng nhau của dữ liệu (để tôi có thể có một ý tưởng mơ hồ về những gì mong đợi).

Khoảng 70% dữ liệu là 0 và tỷ lệ phương sai với giá trị trung bình là 33. Vì vậy, dữ liệu khá phân tán.

Sau khi thử một số tùy chọn khác nhau (bao gồm poisson, nhị thức âm, quassi và mô hình thổi phồng bằng 0) tôi thấy rất ít sự nhất quán trong kết quả (thay đổi từ mọi thứ đều có ý nghĩa đối với không có gì đáng kể).

Làm thế nào tôi có thể đưa ra quyết định sáng suốt về việc chọn loại mô hình nào dựa trên lạm phát 0 và phân tán quá mức? Ví dụ, làm thế nào tôi có thể suy ra rằng quassi-poisson thích hợp hơn so với nhị thức âm (hay ngược lại) và làm thế nào tôi có thể biết rằng việc sử dụng hoặc đã xử lý đầy đủ (hoặc không) với các số 0 thừa? Tương tự, làm thế nào để tôi đánh giá rằng không còn phân tán quá mức nếu sử dụng mô hình bơm hơi bằng không? hoặc làm thế nào tôi nên quyết định giữa một poisson thổi phồng bằng 0 và nhị thức âm thổi phồng bằng 0?

Câu trả lời:


9

Bạn luôn có thể so sánh các mô hình đếm bằng cách xem dự đoán của chúng (tốt nhất là trên tập giữ). J. Scott Long thảo luận về đồ họa này (vẽ các giá trị dự đoán so với thực tế). Sách giáo khoa của ông ở đây mô tả chi tiết nhưng bạn cũng có thể xem 6.4 trên tài liệu này .

Bạn có thể so sánh các mô hình bằng AIC hoặc BIC và cũng có một thử nghiệm gọi là thử nghiệm Voung mà tôi không quen thuộc lắm nhưng có thể so sánh số 0 được thổi phồng với các mô hình không lồng nhau. Dưới đây là một bài viết mô tả ngắn gọn về trang 10 để bạn bắt đầu. Nó cũng được ngụ ý trong bài đăng R


Cảm ơn vì lời khuyên. Tôi chắc chắn sẽ cố gắng kiểm tra các dự đoán trước khi quyết định mô hình
George Michaelides

5

Một vài điều cần thêm vào những gì B_Miner đã nói:

1) Bạn đã viết rằng các mô hình thay đổi từ "mọi thứ quan trọng" đến "không có gì đáng kể" nhưng đây không phải là một cách tốt để so sánh các mô hình. Thay vào đó, hãy nhìn vào các giá trị dự đoán (như B_miner đề xuất) và kích thước hiệu ứng.

2) Nếu 70% dữ liệu là 0, tôi không thể tưởng tượng rằng một mô hình không có lạm phát 0 là phù hợp.

3) Ngay cả khi bạn không muốn đi Bayesian, bạn có thể sử dụng GLMM trong SAS (PROC GLIMMIX hoặc NLMIXED) và trong R (các gói khác nhau). Bỏ qua bản chất lồng nhau có thể làm rối tung mọi thứ.

4) Nói chung, quyết định mô hình nào là tốt nhất là một nghệ thuật, không phải là một khoa học. Có số liệu thống kê để sử dụng, nhưng chúng là một hướng dẫn để đánh giá. Chỉ cần nhìn vào những gì bạn đã viết, tôi sẽ nói rằng một mô hình ZINB có vẻ đúng


Ý định là cuối cùng tôi sẽ cố gắng mô hình hóa điều này bằng Bayesian, nhưng tôi đã cố gắng hiểu làm thế nào tôi có thể đưa ra quyết định trước khi lắp các mô hình. Nếu có khả năng bỏ qua bản chất lồng nhau của dữ liệu làm rối tung mọi thứ, chúng sẽ thử GLMM trước. Gói duy nhất cho R mà tôi biết rằng có thể thực hiện ZINB đa cấp là glmmADMB. Bạn có muốn giới thiệu bất kỳ gói khác?
George Michaelides

4

Sự hiểu biết của tôi là phân phối thổi phồng bằng không nên được sử dụng khi có cơ sở cho một số mặt hàng nhất định để tạo ra số lượng không so với bất kỳ số lượng khác. Nói cách khác, nên sử dụng phân phối thổi phồng bằng 0 nếu các số 0 được tạo ra bởi một quy trình riêng biệt so với phân phối tạo ra các số khác. Nếu bạn không có lý do nào cho việc này, do sự quá mức trong mẫu của bạn, tôi khuyên bạn nên sử dụng phân phối nhị thức âm bởi vì nó thể hiện chính xác sự phong phú của các số 0 và nó thể hiện tính không đồng nhất không quan sát được bằng cách ước tính tự do tham số này. Như đã đề cập ở trên, cuốn sách của Scott Long là một tài liệu tham khảo tuyệt vời.


Cảm ơn câu trả lời của bạn. Thật vậy, tôi bắt đầu suy nghĩ về việc liệu các mặt hàng khác nhau có thể tạo ra 0 so với bất kỳ số đếm nào khác hay không và tôi thực sự nghĩ rằng có một vài biến số của tôi sẽ chỉ giải thích 0s so với bất kỳ số đếm nào khác. Vì vậy, có lẽ tôi ít nhất nên thử ZINB trước để xem các biến này có hoạt động theo cách tôi mong đợi chúng hoạt động không.
George Michaelides

3

hoàn toàn đồng ý với những gì Matt nói, trước tiên bạn phải nghĩ về nền tảng của dữ liệu ... Sẽ không có ý nghĩa gì để phù hợp với các mô hình ZI, khi không có kích hoạt tạo ra Zero trong dân số! Ưu điểm của các mô hình NB là chúng có thể hiển thị tính không đồng nhất không quan sát được trong một biến ngẫu nhiên phân phối gamma. Về mặt kỹ thuật: Những lý do chính cho sự quá mức là unobs Heterogenity và Zero lạm phát. Tôi không tin rằng sự phù hợp của bạn là xấu. Btw để có được sự tốt đẹp của sự phù hợp, bạn nên luôn luôn so sánh Độ lệch với mức độ tự do của mô hình của bạn. Nếu Deviance D cao hơn n- (p + 1) (đây là df) thì bạn nên tìm kiếm một mô hình tốt hơn. Mặc dù hầu hết không có mô hình nào tốt hơn ZINB để thoát khỏi tình trạng quá tải.

nếu bạn muốn lắp ZINB với R, hãy lấy gói psclvà thử sử dụng lệnh zeroinfl(<model>, dist=negative). Để biết thêm thông tin xem ?zeroinflsau khi tải gói yêu cầu!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.