Dữ liệu:
Đối với mục đích của câu hỏi / giao tiếp này, chúng tôi có thể giả sử dữ liệu trông giống như rnbinom(1000,size=0.1,prob=0.01)
trong R, tạo ra một mẫu ngẫu nhiên gồm 1.000 quan sát từ phân phối nhị thức âm (có size=0.1
xác suất thành công prob=0.01
). Đây là tham số trong đó biến ngẫu nhiên đại diện cho số lần thất bại trước size
số lần thành công. Đuôi dài và 1.000 quan sát không có nhiều dữ liệu.
Vấn đề: Tôi đã được cung cấp một số dữ liệu (số nguyên trên {1,2, ....}) [xem ở trên] (1.500 điểm dữ liệu) và được yêu cầu tìm phân phối và ước tính "phù hợp nhất" với bất kỳ tham số nào. Tôi không biết gì khác về dữ liệu. Tôi biết rằng đây không phải là một mẫu rất lớn cho dữ liệu có đuôi dài. Nhiều dữ liệu là một khả năng.
Những gì tôi đã làm: Tôi đã cân nhắc sử dụng thử nghiệm tỷ lệ khả năng bằng cách khớp hai phân phối khác nhau cho dữ liệu, nhưng tôi không nghĩ điều này áp dụng (như trong, tôi không thể xác định giá trị p quan trọng phù hợp) trừ khi hai phân phối được lồng vào nhau ...
Sau đó, tôi đã cân nhắc sử dụng thử nghiệm Kolmogorov-Smirnov (được điều chỉnh cho dữ liệu rời rạc), nhưng dù sao, trong R, nó phàn nàn rằng nó không thể tính giá trị p cho "dữ liệu có mối quan hệ".
Cách tốt nhất để tôi đi kiểm tra / xác định sự phù hợp của các bản phân phối khác nhau trong bối cảnh này là gì? Đây là một số điều khác tôi đã xem xét:
- Yêu cầu (rất nhiều) dữ liệu. Nhưng điều này sẽ giúp? Tôi sẽ có thể sử dụng kết quả tiệm cận, ví dụ?
- Xem xét một số sơ đồ bootstrap / re-sample / monte-carlo? Nếu vậy, có một tài liệu tham khảo tiêu chuẩn tôi có thể / nên đọc để tìm hiểu làm thế nào để làm điều này một cách chính xác? Cảm ơn