Mô hình hóa phân phối Poisson với quá mức


15

Tôi có một bộ dữ liệu mà tôi mong đợi sẽ tuân theo phân phối Poisson, nhưng nó được sử dụng quá mức khoảng 3 lần. Hiện tại, tôi đang lập mô hình quá mức này bằng cách sử dụng mã như sau trong R.

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

Trực quan, điều này dường như rất phù hợp với dữ liệu thực nghiệm của tôi. Nếu tôi hài lòng với sự phù hợp, có lý do nào khiến tôi phải làm điều gì đó phức tạp hơn, như sử dụng phân phối nhị thức âm, như được mô tả ở đây không? (Nếu vậy, bất kỳ con trỏ hoặc liên kết về làm như vậy sẽ được nhiều đánh giá cao).

Ồ, và tôi biết rằng điều này tạo ra một phân phối hơi lởm chởm (do nhân với ba), nhưng điều đó không quan trọng đối với ứng dụng của tôi.


Cập nhật: Vì lợi ích của bất kỳ ai khác tìm kiếm và tìm thấy câu hỏi này, đây là một hàm R đơn giản để mô hình hóa một phân đoạn quá mức sử dụng phân phối nhị thức âm. Đặt d thành tỷ lệ trung bình / phương sai mong muốn:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(thông qua danh sách gửi thư R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

Câu trả lời:


11

đối với poisson quá mức, sử dụng nhị thức âm, cho phép bạn tham số hóa phương sai như là một hàm của giá trị trung bình một cách chính xác. rnbinom (), v.v. trong R.


1
Tại sao nhị thức âm và không phải là mô hình hỗn hợp với hiệu ứng ngẫu nhiên ở mức quan sát? Đây không phải là một câu hỏi tu từ. Đây là một "Tôi không hiểu cái nào tôi nên thích." câu hỏi Ngoài ra, nếu tôi có một tình huống biện pháp lặp đi lặp lại thì sao? Khi dữ liệu của tôi liên tục, tôi sẽ sử dụng mô hình hỗn hợp tuyến tính tổng quát. Phân phối Gamma thường hoạt động tốt với dữ liệu sinh học liên tục và mô hình hỗn hợp xử lý phần tử đo lặp lại. Nhưng người ta sẽ làm gì nếu người ta dùng quá nhiều số liệu đo đếm lặp lại?
Bryan

Một lý do tại sao mô hình nhị thức âm được tham số hóa lại phổ biến với dữ liệu poisson phân tán quá mức là vì nó mô hình phương sai là một hàm của giá trị trung bình (giống như trong poisson) với tham số phân tán quá mức để mô hình phương sai "phụ". Xem trang 487 vào đây để một công thức nhanh chóng: worldscientific.com/doi/pdf/10.1142/9789813235533_0044 và trang wikipedia cho một lời giải thích trên reparameterization: en.wikipedia.org/wiki/Negative_binomial_distribution
Samir Rachid Zaim

4

Nếu giá trị trung bình của bạn cho Poisson là 1500, thì bạn rất gần với phân phối bình thường; bạn có thể thử sử dụng nó như một xấp xỉ và sau đó mô hình hóa giá trị trung bình và phương sai riêng biệt.


Đó chỉ là một ví dụ - nó có thể có trung vị nhỏ hơn nhiều, theo thứ tự 200 (nó phụ thuộc vào cách tôi phân vùng dữ liệu). Điều đó sẽ ngăn cản việc sử dụng một phân phối bình thường, phải không?
chrisamiller

1
Giá trị gần đúng bình thường đối với phân phối Poisson khá mạnh mẽ, sự khác biệt giữa các CDF bị giới hạn bởi một cái gì đó như 0,75 / sqrt (lambda), nếu tôi nhớ chính xác. Tôi sẽ không quá lo lắng về việc sử dụng lambda = 200, nhưng nếu bạn không thích rủi ro hơn thì chắc chắn sẽ đi theo nhị thức âm.
Giàu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.