Tôi là một sinh viên thống kê tiến sĩ. Tôi đang làm việc với một tập hợp dữ liệu đếm dữ liệu. Đó là số lượng người dùng tham gia vào cuộc trò chuyện theo thời gian thực n-way. Số người dùng nằm trong khoảng từ 1 đến 6 và có khoảng 300 mẩu dữ liệu trong bộ.
Động lực ban đầu của tôi là để hiểu liệu dữ liệu có phù hợp với phân phối Poisson hay không, suy nghĩ của tôi là nếu tìm thấy sự phù hợp tốt, tôi có thể sử dụng kết quả này để suy luận thêm.
Để cắt ngắn một câu chuyện dài, tôi đã cố gắng khớp dữ liệu và sự phù hợp thất bại ở mức ý nghĩa 0,05. Do đó tôi có thể bác bỏ giả thuyết của mình (rằng phân phối Poisson có thể được sử dụng để xấp xỉ tập dữ liệu).
Khi tôi nhìn vào một biểu đồ mật độ, tôi tin rằng lý do tại sao có sự phù hợp kém như vậy là có "quá nhiều giá trị được ghi lại cho 2 người dùng. Phân phối Poisson sẽ phù hợp hơn với ít giá trị hơn trong thùng này. Tuy nhiên, khi tôi biên dịch bản thân dữ liệu Tôi không có lý do để tin rằng có các ngoại lệ (tức là các cuộc hội thoại với 2 người dùng sẽ được gán cho thùng cao hơn hoặc thấp hơn)
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
Ở cấp độ thống kê cấp dưới, tôi được dạy rằng dữ liệu đếm có thể được mô hình hóa bằng phân phối Poisson, nhưng họ không bao giờ dạy phải làm gì khi dữ liệu đếm không phù hợp.
Tôi không bị ràng buộc với tiền đề rằng dữ liệu đếm của tôi phải phù hợp với Poisson (hoặc bất kỳ phân phối nào khác cho vấn đề đó). Tuy nhiên, tôi muốn khám phá tính hiệu quả của việc liệu tôi có nên chuyển đổi tập dữ liệu của mình và phù hợp với phân phối rời rạc khác hay thử một số phương pháp khác (KDE) thay thế. Hoặc tôi nên đơn giản kết luận rằng dữ liệu của tôi không phù hợp với Poisson (hoặc bất kỳ phân phối nào khác) và để nó ở đó?
users-1
khi được trang bị phù hợp với phân phối Poisson (là một hình thức vượt rào). Tôi nghi ngờ một cách tiếp cận thông thường cần được áp dụng khi xử lý dữ liệu phân tán.
users-1