Mức độ phù hợp với dữ liệu rời rạc: phương pháp tốt nhất


9

Dữ liệu: Đối với mục đích của câu hỏi / giao tiếp này, chúng tôi có thể giả sử dữ liệu trông giống như rnbinom(1000,size=0.1,prob=0.01)trong R, tạo ra một mẫu ngẫu nhiên gồm 1.000 quan sát từ phân phối nhị thức âm (có size=0.1xác suất thành công prob=0.01). Đây là tham số trong đó biến ngẫu nhiên đại diện cho số lần thất bại trước sizesố lần thành công. Đuôi dài và 1.000 quan sát không có nhiều dữ liệu.

Vấn đề: Tôi đã được cung cấp một số dữ liệu (số nguyên trên {1,2, ....}) [xem ở trên] (1.500 điểm dữ liệu) và được yêu cầu tìm phân phối và ước tính "phù hợp nhất" với bất kỳ tham số nào. Tôi không biết gì khác về dữ liệu. Tôi biết rằng đây không phải là một mẫu rất lớn cho dữ liệu có đuôi dài. Nhiều dữ liệu là một khả năng.

Những gì tôi đã làm: Tôi đã cân nhắc sử dụng thử nghiệm tỷ lệ khả năng bằng cách khớp hai phân phối khác nhau cho dữ liệu, nhưng tôi không nghĩ điều này áp dụng (như trong, tôi không thể xác định giá trị p quan trọng phù hợp) trừ khi hai phân phối được lồng vào nhau ...

Sau đó, tôi đã cân nhắc sử dụng thử nghiệm Kolmogorov-Smirnov (được điều chỉnh cho dữ liệu rời rạc), nhưng dù sao, trong R, nó phàn nàn rằng nó không thể tính giá trị p cho "dữ liệu có mối quan hệ".

Cách tốt nhất để tôi đi kiểm tra / xác định sự phù hợp của các bản phân phối khác nhau trong bối cảnh này là gì? Đây là một số điều khác tôi đã xem xét:

  1. Yêu cầu (rất nhiều) dữ liệu. Nhưng điều này sẽ giúp? Tôi sẽ có thể sử dụng kết quả tiệm cận, ví dụ?
  2. Xem xét một số sơ đồ bootstrap / re-sample / monte-carlo? Nếu vậy, có một tài liệu tham khảo tiêu chuẩn tôi có thể / nên đọc để tìm hiểu làm thế nào để làm điều này một cách chính xác? Cảm ơn

Câu trả lời:


6

Nếu tôi hiểu chính xác câu hỏi của bạn, bạn chỉ cần điều chỉnh dữ liệu để phân phối . Trong trường hợp này, bạn có thể sử dụng một trong các hàm trong các gói R, chẳng hạn như fitdistrtừ MASSgói, sử dụng ước tính khả năng tối đa (MLE) và hỗ trợ các phân phối rời rạc , bao gồm nhị thứcPoisson .

Sau đó, là bước thứ hai, bạn sẽ cần thực hiện một (hoặc nhiều ) bài kiểm tra mức độ phù hợp (GoF) để xác nhận kết quả . Tất cả các thử nghiệm Lilliefors Kolmogorov-Smirnov , Anderson-Darling và (AFAIK) đều không áp dụng cho các bản phân phối rời rạc. Tuy nhiên, may mắn thay, kiểm tra GoF chi bình phương có thể áp dụng cho cả phân phối liên tục và rời rạc và trong R là vấn đề của chức năng gọi .stats::chisq.test()

Ngoài ra , vì dữ liệu của bạn đại diện cho một phân phối rời rạc, bạn có thể sử dụng vcdgói và chức năng của nó goodfit(). Chức năng này có thể được sử dụng để thay thế cho kiểm tra GoF tiêu chuẩn chisq.test(), hoặc, thậm chí tốt hơn, như một quy trình công việc đầy đủ ( kiểm tra phân phốikiểm tra GoF ). Đối với tùy chọn quy trình làm việc đầy đủ , chỉ cần sử dụng thiết lập mặc định và không chỉ định tham số par(bạn có thể chỉ định size, nếu type = "nbinomial"). Các tham số sẽ được ước tính, sử dụng khả năng tối đa hoặc bình phương tối thiểu (bạn có thể chọn phương pháp). Kết quả có thể thu được bằng summary()chức năng gọi .


3
Các thử nghiệm KS rời rạc thực sự tồn tại trên thực tế: stat.yale.edu/~jay/EmersonM vật liệu / ReciscGOF.pdf
Astrid

@Astrid Đẹp! Cảm ơn bạn đã cập nhật và chúc mừng năm mới!
Alexanderr Blekh 30/12/18

Bốn năm muộn còn hơn không bao giờ: D Chúc mừng năm mới cho bạn!
Astrid

1
@Astrid "... muộn còn hơn không" - không thể tranh luận với điều đó. :-) Cảm ơn bạn!
Alexanderr Blekh 30/12/18
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.