Mô hình thích hợp cho dữ liệu đếm kém là gì?


24

Tôi đang cố gắng mô hình hóa dữ liệu đếm trong R rõ ràng là không đủ (Thông số phân tán ~ .40). Đây có lẽ là lý do tại sao một glmvới family = poissonhoặc một nhị thức âm ( glm.nbmô hình) là không đáng kể. Khi tôi xem các mô tả về dữ liệu của mình, tôi không có độ lệch điển hình của dữ liệu đếm và phần dư trong hai điều kiện thử nghiệm của tôi cũng đồng nhất.

Vì vậy, câu hỏi của tôi là:

  1. Tôi thậm chí có phải sử dụng các phân tích hồi quy đặc biệt cho dữ liệu đếm của mình không, nếu dữ liệu đếm của tôi không thực sự hoạt động như dữ liệu đếm? Đôi khi tôi phải đối mặt với sự không bình thường (thường là do sự suy yếu), nhưng tôi đã sử dụng phương pháp bootstrap phần trăm để so sánh các phương tiện được cắt xén (Wilcox, 2012) để giải thích cho tính phi quy tắc. Các phương pháp cho dữ liệu đếm có thể được thay thế bằng bất kỳ phương pháp mạnh nào được đề xuất bởi Wilcox và được hiện thực hóa trong gói WRS không?

  2. Nếu tôi phải sử dụng các phân tích hồi quy cho dữ liệu đếm, làm thế nào để tôi tính đến sự phân tán dưới mức? Poisson và phân phối nhị thức âm tính giả định độ phân tán cao hơn, do đó không nên thích hợp, phải không? Tôi đã suy nghĩ về việc áp dụng phân phối quasi-Poisson , nhưng điều đó thường được khuyến nghị cho phân tán quá mức. Tôi đã đọc về các mô hình nhị phân beta mà dường như có thể giải thích cho sự quá mức cũng như sự thiếu sót là có sẵn trong VGAMgói của R. Tuy nhiên, các tác giả dường như đề xuất phân phối Poisson bị nghiêng , nhưng tôi không thể tìm thấy nó trong gói .

Bất cứ ai cũng có thể đề xuất một quy trình cho dữ liệu bị thiếu và có thể cung cấp một số mã R ví dụ cho nó?


1
Làm thế nào để bạn biết dữ liệu của bạn được đánh giá thấp? Làm thế nào để bạn tính toán tham số phân tán?
Hồng Ooi

1
Nó cũng sẽ giúp cho chúng tôi biết thêm về những gì bạn quan tâm. Đối với các ước tính điểm dự đoán tuyến tính và dự đoán các giá trị, hiếm khi xảy ra sự cố nhưng các thử nghiệm và khoảng có thể bảo thủ một cách không cần thiết (các gia đình gần như sẽ giúp đỡ điều đó). Điều đó nói rằng, đối với cách tiếp cận khả năng "bình thường", hãy kiểm tra COM Poisson và các mô hình Poisson tổng quát khác.
Momo

@ Hung Ooi: Tôi đã thử nghiệm độ phân tán với độ phân tán (Poissonmodel, thay thế = c ("ít hơn")) và thử nghiệm hóa ra có ý nghĩa.
Sil

1
@ Momo: Tôi muốn kiểm tra xem việc đàm phán đê điều trong hai điều kiện thí nghiệm có khác nhau trong các đề nghị chính xác mà họ đưa ra không. Cung cấp chính xác có nghĩa là các đê yêu cầu nhiều vấn đề tương ứng với lợi ích tương ứng của đội của họ thay vì yêu cầu các vấn đề có giá trị hơn cho bên kia. Đầu tiên, tôi thậm chí còn nhận thức được rằng đây là dữ liệu đếm. Ý bạn là Phân phối Conway-Maxwell-Poisson của COM Poisson? Cảm ơn rất nhiều rồi!
Sil

3
Cảm ơn thông tin bổ sung. Vâng, tôi có nghĩa là poisson conway-maxwell. Shmueli & co đã phát triển một mô hình tuyến tính tổng quát loại tốt cho nó, cũng có một gói R nếu bạn muốn thử.
Momo

Câu trả lời:


9

Cách tốt nhất --- và tiêu chuẩn để xử lý dữ liệu Poisson bị thiếu là sử dụng Poisson tổng quát, hoặc có thể là mô hình vượt rào. Ba mô hình đếm tham số cũng có thể được sử dụng cho dữ liệu bị thiếu; ví dụ Faddy-Smith, Waring, Famoye, Conway-Maxwell và các mô hình đếm tổng quát khác. Hạn chế duy nhất với những điều này là khả năng diễn giải. Nhưng đối với dữ liệu được đánh giá thấp, nên sử dụng Poisson tổng quát. Nó giống như nhị thức âm cho dữ liệu quá mức. Tôi thảo luận về điều này một số chi tiết trong hai cuốn sách của tôi, Mô hình đếm dữ liệu (2014) và Hồi quy nhị thức âm, phiên bản 2, (2011) của cả Nhà xuất bản Đại học Cambridge. Trong R, gói VGAM cho phép hồi quy Poisson (GP) tổng quát. Các giá trị âm của tham số phân tán biểu thị sự điều chỉnh cho mức độ thiếu. Bạn cũng có thể sử dụng mô hình GP cho dữ liệu quá mức, nhưng nhìn chung mô hình NB tốt hơn. Khi nói đến nó, tốt nhất là xác định nguyên nhân cho sự thiếu hụt và sau đó chọn mô hình phù hợp nhất để đối phó với nó.


Chào mừng trở lại! Vui lòng đăng ký & / hoặc hợp nhất các tài khoản của bạn (bạn có thể tìm thấy thông tin về cách thực hiện việc này trong phần Tài khoản của tôi trong trung tâm trợ giúp của chúng tôi ), sau đó bạn sẽ có thể chỉnh sửa & nhận xét về câu hỏi của riêng mình. (Tài khoản ban đầu của bạn ở đây .)
gung - Tái lập Monica

Bạn có thể thực hiện phân tích Poisson tổng quát trên SPSS không?
Grace Carroll

3

Tôi đã gặp một Poisson phân tán một lần có liên quan đến tần suất mọi người sẽ chơi một trò chơi xã hội. Hóa ra điều này là do sự thường xuyên cực kỳ mà mọi người sẽ chơi vào thứ Sáu. Việc xóa dữ liệu vào thứ Sáu đã mang đến cho tôi Poisson quá mức dự kiến. Có lẽ bạn có tùy chọn để chỉnh sửa tương tự dữ liệu của bạn.


1

Có những tình huống mà sự thiếu hụt kết hợp với lạm phát bằng không, đó là điển hình cho trẻ em ưa thích được tính bởi các cá nhân của cả hai giới. Tôi đã không tìm thấy một cách để nắm bắt điều này cho đến nay

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.