Đo lường mức độ phù hợp trong một mô hình kết hợp hai phân phối


9

Tôi có dữ liệu với một đỉnh kép mà tôi đang cố gắng tạo mô hình và có đủ sự chồng chéo giữa các đỉnh mà tôi không thể xử lý chúng một cách độc lập. Một biểu đồ của dữ liệu có thể trông giống như thế này:

văn bản thay thế

Tôi đã tạo hai mô hình cho việc này: một mô hình sử dụng hai phân phối Poisson và mô hình kia sử dụng hai phân phối nhị thức âm (để tính đến sự quá mức). Cách thích hợp để cho biết mô hình nào phù hợp với dữ liệu chính xác hơn?

Suy nghĩ ban đầu của tôi là tôi có thể sử dụng thử nghiệm Kolmogorov-Smirnov để so sánh từng mô hình với dữ liệu, sau đó thực hiện kiểm tra tỷ lệ khả năng để xem liệu một mô hình có phù hợp hơn đáng kể hay không. Điều này có nghĩa không? Nếu vậy, tôi không chắc chắn chính xác làm thế nào để thực hiện kiểm tra tỷ lệ khả năng. Chi-squared có phù hợp không, và tôi có bao nhiêu bậc tự do?

Nếu nó giúp, một số mã R (rất đơn giản) cho các mô hình có thể trông giống như thế này:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Chỉnh sửa: Đây là hình ảnh có thể giải thích dữ liệu và bản phân phối Tôi phù hợp hơn. Hoàn toàn rõ ràng từ hình dung rằng mô hình thứ hai (sử dụng phân thức nhị thức âm tính để tính toán quá mức) là phù hợp hơn. Tuy nhiên, tôi muốn thể hiện điều này một cách định lượng. văn bản thay thế

(đỏ - dữ liệu, xanh lục - mô hình)


Bạn có biết phân phối xác suất của các giá trị trong mỗi thùng không? Nhãn trục y khiến tôi nghĩ rằng đây có thể là Poissonia hoặc Multinomial? (giả sử một mô hình cung cấp cho bạn giá trị trung bình trong mỗi thùng)
Andre Holzner

Dữ liệu về cơ bản được rút ra từ hai quá trình Poisson, nhưng có những biến ẩn mà tôi không thể sửa, dẫn đến quá mức. Do đó, một nhị thức âm chắc chắn là một mô hình tốt hơn. (xem hình ảnh / văn bản mới tôi đã thêm ở trên). Tôi cần chỉ ra rằng mô hình nb của tôi phù hợp hơn về mặt định lượng.
chrisamiller

1
Làm thế nào về một số liệu như Lỗi bình phương trung bình giữa các giá trị thực tế và dự đoán?

hrmm - Tôi thích ý tưởng đó, Srikant. Nó đơn giản hơn nhiều so với những gì tôi nghĩ, nhưng vẫn có ý nghĩa. Ném vào một câu trả lời dưới đây để tôi có thể ghi nhận nó và gửi một số đại diện theo cách của bạn. Tôi vẫn thích nghe các phương pháp khác, nhưng hiện tại nó có thể hoạt động.
chrisamiller

Câu trả lời:


4

Bạn có thể sử dụng một số liệu như Lỗi bình phương trung bình giữa các giá trị thực tế và dự đoán để so sánh hai mô hình.


1
Đây là câu trả lời đúng cho tình huống cụ thể của tôi, mặc dù phản hồi của Glen_b đã giúp tôi tìm hiểu thêm. Vì vậy, nhiều upvote cho anh ta, chấp nhận câu trả lời cho Srikant. Mọi người đều thắng - cảm ơn tất cả.
chrisamiller

8

Bạn không thể so sánh chúng trực tiếp vì Binomial âm có nhiều tham số hơn. Thật vậy, Poisson được "lồng" trong Binomial âm theo nghĩa đó là trường hợp giới hạn, do đó, NegBin sẽ luôn phù hợp hơn Poisson. Tuy nhiên, điều đó có thể xem xét một cái gì đó giống như thử nghiệm tỷ lệ khả năng nhưng thực tế là Poisson nằm ở ranh giới của không gian tham số cho nhị thức âm có thể ảnh hưởng đến phân phối thống kê kiểm tra.

Trong mọi trường hợp, ngay cả khi sự khác biệt về số lượng tham số không phải là vấn đề, bạn không thể thực hiện kiểm tra trực tiếp bởi vì bạn có các tham số ước tính và KS dành riêng cho trường hợp tất cả các tham số được chỉ định. Ý tưởng của bạn về việc sử dụng bootstrap liên quan đến vấn đề này, nhưng không phải là ý tưởng đầu tiên (sự khác biệt về số lượng tham số)

Tôi cũng đang xem xét các thử nghiệm suôn sẻ về mức độ phù hợp (ví dụ, xem cuốn sách của Rayner và Best), ví dụ, có thể dẫn đến phân vùng mức độ phù hợp chi bình phương của các thử nghiệm phù hợp (đo độ lệch so với mô hình Poisson trong trường hợp này) - được đưa ra để nói lệnh thứ tư hoặc thứ sáu, điều này sẽ dẫn đến một thử nghiệm có sức mạnh tốt cho sự thay thế của NegBin.

(Chỉnh sửa: Bạn có thể so sánh sự phù hợp của poisson và negbin của mình thông qua kiểm tra chi bình phương nhưng nó sẽ có công suất thấp. Phân vùng bình phương và chỉ nhìn vào 4 - 6 thành phần đầu tiên, như được thực hiện với các bài kiểm tra trơn tru có thể làm tốt hơn .)


Cảm ơn. Điều đó làm rõ một loạt các điều và mở ra một loạt các câu hỏi mới mà tôi sẽ phải thực hiện một số nghiên cứu. Tôi đoán câu hỏi chính của tôi là, những gì bạn đang nói có nghĩa là một cái gì đó đơn giản hơn, chẳng hạn như lấy lỗi bình phương gốc, không phải là một cách hợp lệ để tiếp cận vấn đề này? Tôi sẽ cho rằng nó có thể không mạnh mẽ và sẽ không cho tôi giá trị p, nhưng đó là điều tôi có thể làm nhanh chóng trong khi tôi cố gắng theo dõi một bản sao của cuốn sách bạn tham khảo. Bất kỳ suy nghĩ sẽ được đánh giá cao.
chrisamiller

2
hãy tưởng tượng rằng bạn có một tập hợp các điểm (x, y) và bạn đang xem xét liệu bạn có thể phù hợp với một đường thẳng hay một bậc hai. Nếu bạn so sánh RMSE, phương trình bậc hai sẽ luôn luôn đánh bại đường thẳng , bởi vì đường thẳng là một bậc hai với một tham số được đặt thành 0: nếu ước lượng bình phương nhỏ nhất của tham số là chính xác bằng 0 (không có xác suất phản hồi liên tục), thì đó là một cà vạt, và trong mọi trường hợp khác, dòng bị mất. Điều này cũng tương tự với Poisson so với nhị thức âm - một Binomial âm miễn phí luôn có thể phù hợp ít nhất cũng như Poisson miễn phí.
Glen_b -Reinstate Monica

Giải thích hay - Tôi hiểu những gì bạn đang nói bây giờ. Tôi nghĩ trường hợp của tôi hơi khác một chút, vì tôi không thực hiện hồi quy để có sự phù hợp, nhưng thay vào đó, tôi dựa vào thông số NB bổ sung cho thông tin bên ngoài (tôi hy vọng tỷ lệ var / mean là N). Vì Poisson là trường hợp đặc biệt trong đó N = 1, điều tôi thực sự so sánh là sự lựa chọn của N. Tôi đồng ý rằng nếu tôi đang thực hiện hồi quy, NB sẽ luôn có thể tìm thấy sự phù hợp tốt hơn, vì nó ít bị ràng buộc hơn. Trong trường hợp của tôi, khi tôi chọn một giá trị cho N lên phía trước, chắc chắn có thể chọn một số giá trị điên rồ của N làm cho sự phù hợp trở nên tồi tệ hơn.
chrisamiller

Tôi chắc chắn sẽ đọc các bài kiểm tra trơn tru về sự phù hợp mà bạn đề nghị mặc dù. Cảm ơn các câu trả lời thông tin.
chrisamiller

Xin lỗi về việc không nhận ra rằng dữ liệu không đi vào lựa chọn tham số quá mức. Có thể có một số đối số để thực hiện theo cách của bạn, nhưng nếu ước tính bên ngoài có khả năng phản ánh những gì bạn thực sự quan sát, NB vẫn có thể có một số lợi thế tùy thuộc vào hoàn cảnh.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.