Tôi có một bộ dữ liệu mà tôi mong đợi sẽ tuân theo phân phối Poisson, nhưng nó được sử dụng quá mức khoảng 3 lần. Hiện tại, tôi đang lập mô hình quá mức này bằng cách sử dụng mã như sau trong R.
## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)
Trực quan, điều này dường như rất phù hợp với dữ liệu thực nghiệm của tôi. Nếu tôi hài lòng với sự phù hợp, có lý do nào khiến tôi phải làm điều gì đó phức tạp hơn, như sử dụng phân phối nhị thức âm, như được mô tả ở đây không? (Nếu vậy, bất kỳ con trỏ hoặc liên kết về làm như vậy sẽ được nhiều đánh giá cao).
Ồ, và tôi biết rằng điều này tạo ra một phân phối hơi lởm chởm (do nhân với ba), nhưng điều đó không quan trọng đối với ứng dụng của tôi.
Cập nhật: Vì lợi ích của bất kỳ ai khác tìm kiếm và tìm thấy câu hỏi này, đây là một hàm R đơn giản để mô hình hóa một phân đoạn quá mức sử dụng phân phối nhị thức âm. Đặt d thành tỷ lệ trung bình / phương sai mong muốn:
rpois.od<-function (n, lambda,d=1) {
if (d==1)
rpois(n, lambda)
else
rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}
(thông qua danh sách gửi thư R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )