Tôi có dữ liệu với một đỉnh kép mà tôi đang cố gắng tạo mô hình và có đủ sự chồng chéo giữa các đỉnh mà tôi không thể xử lý chúng một cách độc lập. Một biểu đồ của dữ liệu có thể trông giống như thế này:
Tôi đã tạo hai mô hình cho việc này: một mô hình sử dụng hai phân phối Poisson và mô hình kia sử dụng hai phân phối nhị thức âm (để tính đến sự quá mức). Cách thích hợp để cho biết mô hình nào phù hợp với dữ liệu chính xác hơn?
Suy nghĩ ban đầu của tôi là tôi có thể sử dụng thử nghiệm Kolmogorov-Smirnov để so sánh từng mô hình với dữ liệu, sau đó thực hiện kiểm tra tỷ lệ khả năng để xem liệu một mô hình có phù hợp hơn đáng kể hay không. Điều này có nghĩa không? Nếu vậy, tôi không chắc chắn chính xác làm thế nào để thực hiện kiểm tra tỷ lệ khả năng. Chi-squared có phù hợp không, và tôi có bao nhiêu bậc tự do?
Nếu nó giúp, một số mã R (rất đơn giản) cho các mô hình có thể trông giống như thế này:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Chỉnh sửa: Đây là hình ảnh có thể giải thích dữ liệu và bản phân phối Tôi phù hợp hơn. Hoàn toàn rõ ràng từ hình dung rằng mô hình thứ hai (sử dụng phân thức nhị thức âm tính để tính toán quá mức) là phù hợp hơn. Tuy nhiên, tôi muốn thể hiện điều này một cách định lượng.
(đỏ - dữ liệu, xanh lục - mô hình)