Tôi có những gì tôi ngây thơ nghĩ là một vấn đề khá đơn giản liên quan đến việc phát hiện ngoại lệ cho nhiều bộ dữ liệu đếm khác nhau. Cụ thể, tôi muốn xác định xem một hoặc nhiều giá trị trong một chuỗi dữ liệu đếm cao hơn hoặc thấp hơn dự kiến so với phần còn lại của số đếm trong phân phối.
Yếu tố gây nhiễu là tôi cần phải thực hiện điều này cho 3.500 bản phân phối và có khả năng một số trong số chúng sẽ phù hợp với một poisson quá mức bị thổi phồng bằng 0, trong khi những cái khác có thể phù hợp nhất với nhị thức âm hoặc ZINB, trong khi những cái khác có thể được phân phối bình thường. Vì lý do này, điểm Z đơn giản hoặc âm mưu phân phối không phù hợp với phần lớn dữ liệu. Dưới đây là một ví dụ về dữ liệu đếm mà tôi muốn phát hiện các ngoại lệ.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Ban đầu tôi nghĩ rằng tôi sẽ cần phải viết một vòng lặp bằng Python hoặc R sẽ áp dụng một tập các mô hình cho mỗi phân phối và chọn mô hình phù hợp nhất theo AIC hoặc khác (có thể là fitdistrplus trong R?). Sau đó tôi có thể hỏi các cực trị của phân phối đã cho là gì (số đếm rơi vào đuôi, ví dụ: số "4" có phải là ngoại lệ trong phân phối Counts1 ở trên không?). Tuy nhiên, tôi không chắc đây là một chiến lược hợp lệ và nó xảy ra với tôi có thể có một phương pháp đơn giản để xác định các ngoại lệ trong dữ liệu đếm mà tôi không biết. Tôi đã tìm kiếm rộng rãi và không tìm thấy gì có vẻ phù hợp với vấn đề của mình với số lượng phân phối mà tôi muốn xem xét.
Mục tiêu cuối cùng của tôi là phát hiện sự tăng hoặc giảm đáng kể về số lượng cho mỗi phân phối số lượng, sử dụng phương pháp phù hợp nhất về mặt thống kê.