Nếu không phải là Poisson thì phân phối này là gì?

11

Tôi có một bộ dữ liệu chứa số lượng hành động được thực hiện bởi các cá nhân trong vòng 7 ngày. Các hành động cụ thể không nên có liên quan cho câu hỏi này. Dưới đây là một số thống kê mô tả cho tập dữ liệu:

\begin{array}{cc} Range & 0 - 772 \\ Mean & 18.2 \\ Variance & 2791 \\ Number of observations & 696 \end{array}

$\begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array}$

Dưới đây là biểu đồ của dữ liệu: biểu đồ hành động

Đánh giá từ nguồn dữ liệu, tôi đoán rằng nó sẽ phù hợp với phân phối Poisson. Tuy nhiên, phương sai trung bình và biểu đồ được đặt nặng ở bên trái. Ngoài ra, tôi đã chạy goodfitthử nghiệm trong R và nhận được:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0

Phương pháp Khả năng tối đa cũng mang lại giá trị p = 0. Giả sử giả thuyết null là: dữ liệu khớp với phân phối Poisson (tài liệu không chỉ định điều này), sau đó goodfitthử nghiệm cho biết chúng ta nên từ chối giả thuyết null, do đó dữ liệu không phù hợp với phân phối Poisson.

Phân tích đó có đúng không? Nếu vậy, phân phối nào bạn nghĩ sẽ phù hợp với dữ liệu này?

$\chi^2$

— Dcook
nguồn

bạn đã thử nhị thức âm tính chưa? Điều này có giúp được gì không?

— Ric

@Richard, tôi đã thử nhị thức âm tính, và điều đó không phù hợp. Tuy vậy vẫn cảm ơn về những gợi ý. Vì tôi không thể tìm ra loại phân phối này là gì, tôi quyết định bỏ qua phân phối và đi với một thử nghiệm không tham số, thử nghiệm Mann-Whitney U.

— Dcook

m e a n / v a r i a n c e = 1 - p

$mean/variance = 1-p$

p

$p$

Tôi không nghĩ rằng khái niệm về một thử nghiệm Bernoulli được áp dụng trong trường hợp của tôi. Không có khái niệm thành công hay thất bại; đối tượng hoặc thực hiện hành động quan tâm hoặc họ không. Họ không thử và thất bại. Do đó, ý tưởng về xác suất thành công không có ý nghĩa. Trừ khi thử nghiệm là một đơn vị thời gian. Nhưng sau đó, không có gì ngăn cản đối tượng thực hiện nhiều hành động trong khoảng thời gian đó.

— Dcook

l m a b d a

$lmabda$

8

Nếu phương sai lớn hơn giá trị trung bình thì điều này được gọi là phân tán quá mức. Một mô hình tự nhiên cho điều này là phân phối nhị thức âm. Đây cũng có thể được xem như là một bản phân phối Poisson trong đó Parameter lambda tuân theo phân phối Gamma. Bước đầu tiên và dễ dàng có thể là phù hợp với phân phối nhị thức âm.

— Ric
nguồn

5

Nếu dữ liệu đếm thô của bạn không giống như phân phối Poisson, thì bạn đang thiếu thứ gì đó. Có lẽ số lượng hành động phụ thuộc vào nhiệt độ, vì vậy vào những ngày nóng, mọi người làm ít việc hơn. Sau đó, sự thay đổi nhiệt độ trong thời gian nghiên cứu của bạn sẽ ảnh hưởng đến việc phân phối và làm cho nó không bị Poisson.

Tuy nhiên, số lượng hành động mỗi ngày vẫn có thể là Poisson với mức trung bình phụ thuộc vào nhiệt độ. Nếu bạn có nhiệt độ mỗi ngày, thì bạn có thể thực hiện GLM, hồi quy số lượng hành động dưới dạng biến Poisson, phụ thuộc vào nhiệt độ. Nếu điều đó phù hợp độc đáo, công việc được thực hiện.

Nếu bạn không có các biến giải thích có thể, thì tất cả những gì bạn có thể nói là "điều gì đó khác đang diễn ra - số lượng hành động không phải từ các mẫu Poisson độc lập" - tức là từ chối giả thuyết khống của bạn.

Có các thử nghiệm không phân phối có thể so sánh các quan sát được ghép nối bằng cách sử dụng bảng xếp hạng, v.v. Thông thường, họ thực hiện một số lượng lớn hoán vị và tính toán một thống kê kiểm tra ...

— Spainedman
nguồn

4

Một điều nữa: Bạn cũng nên điều tra các ngoại lệ trong dữ liệu đếm. Bạn đã có một số đếm ở 400-ish và sau đó không có gì cho đến 800-ish. Điều đó dường như không phù hợp với bất kỳ mô hình phổ biến nào.

— Scortchi - Tái lập Monica
nguồn

1

Dường như bạn đang đếm số lượng sự kiện bằng không - nếu vậy, thì bạn có thể xem xét mô hình ZIP (hoặc Hurdle) - tham khảo Mô hình hồi quy cho Dữ liệu đếm trong R của Zeileis et al để biết tổng quan.

Tóm lại, các phương pháp này mô hình các số 0 riêng biệt với các số còn lại có thể hữu ích trong trường hợp của bạn.

Tham khảo các psclgói và các zeroinfl()và hurdle()các chức năng.

— Sean
nguồn

1

Tôi nghi ngờ rằng biểu đồ của bạn bị đánh cắp một cách giả dối. Nếu bạn có hơn 300 quan sát trải đều trong phạm vi 0-50, khoảng 320 trải đều trong phạm vi 50-100 và 50 hoặc hơn 100, nghĩa là bạn phải lớn hơn đáng kể so với 18.2.

Nếu dữ liệu trong phạm vi 0-50 không được trải đều mà tập trung gần bằng 0, thì việc nhìn thấy nhiều hơn trong phạm vi 50-100 so với trong phạm vi 0-50 là đáng ngạc nhiên.

Có lẽ bạn có một hỗn hợp phân phối. Tôi nghi ngờ rằng bất cứ ai cũng có thể làm rất nhiều với điều này mà không cần quan sát thực tế 696 và đặc biệt là không biết thêm về bối cảnh. Có phải mỗi trong số 696 quan sát là một cá nhân và là phản ứng số lượng hành động mà mỗi cá nhân thực hiện? Nếu vậy, có các loại cá nhân khác nhau trong dữ liệu?

— Emil Friedman
nguồn