Phương pháp lắp phân phối rời rạc
Có ba phương thức chính * được sử dụng để khớp (ước tính các tham số) phân phối rời rạc.
Điều này tìm thấy các giá trị tham số mang lại cơ hội tốt nhất để cung cấp mẫu của bạn (đưa ra các giả định khác, như tính độc lập, tham số không đổi, v.v.)
Điều này tìm thấy các giá trị tham số làm cho một vài khoảnh khắc dân số đầu tiên khớp với các khoảnh khắc mẫu của bạn. Việc này thường khá dễ thực hiện và trong nhiều trường hợp mang lại các công cụ ước tính khá hợp lý. Đôi khi nó cũng được sử dụng để cung cấp các giá trị bắt đầu cho các thói quen ML.
Điều này giảm thiểu mức độ chi bình phương của thống kê phù hợp so với phân phối rời rạc, mặc dù đôi khi với các tập dữ liệu lớn hơn, các danh mục cuối có thể được kết hợp để thuận tiện. Nó thường hoạt động khá tốt, và thậm chí nó có thể có một số lợi thế so với ML trong các tình huống cụ thể, nhưng nhìn chung nó phải được lặp đi lặp lại để hội tụ, trong trường hợp hầu hết mọi người có xu hướng thích ML.
Hai phương pháp đầu tiên cũng được sử dụng để phân phối liên tục; thứ ba thường không được sử dụng trong trường hợp đó.
Những điều này không có nghĩa là bao gồm một danh sách đầy đủ, và hoàn toàn có thể ước tính các tham số bằng cách giảm thiểu thống kê KS chẳng hạn - và thậm chí (nếu bạn điều chỉnh cho sự không thống nhất), để có được một khu vực phụ âm chung từ nó, nếu bạn là nghiêng như vậy. Vì bạn đang làm việc trong R, ước tính ML khá dễ dàng đạt được cho nhị thức âm. Nếu mẫu của bạn được x
, nó đơn giản như library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
Đó là các ước tính tham số và các lỗi tiêu chuẩn (tiệm cận) của chúng.
Trong trường hợp phân phối Poisson, MLE và MoM đều ước tính tham số Poisson tại giá trị trung bình mẫu.
Nếu bạn muốn xem các ví dụ, bạn nên đăng một số lượng thực tế. Lưu ý rằng biểu đồ của bạn đã được thực hiện với các thùng được chọn sao cho các loại 0 và 1 được kết hợp và chúng tôi không có số liệu thô.
Gần như tôi có thể đoán, dữ liệu của bạn đại khái như sau:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
Nhưng những con số lớn sẽ không chắc chắn (nó phụ thuộc nhiều vào mức độ chính xác của số lượng thấp được biểu thị bằng số pixel của chiều cao thanh của chúng) và nó có thể là bội số của những con số đó, như hai lần những con số đó (số lượng thô ảnh hưởng các lỗi tiêu chuẩn, do đó, vấn đề là chúng có liên quan đến các giá trị đó hay lớn gấp đôi)
Sự kết hợp của hai nhóm đầu tiên làm cho nó hơi khó xử một chút (có thể thực hiện được, nhưng ít đơn giản hơn nếu bạn kết hợp một số danh mục. Rất nhiều thông tin nằm trong hai nhóm đầu tiên đó vì vậy tốt nhất không nên để biểu đồ mặc định gộp lại. ).
* Tất nhiên, các phương pháp khác của việc phân phối rời rạc đều có thể xảy ra (người ta có thể khớp với lượng tử hoặc giảm thiểu mức độ tốt khác của thống kê phù hợp chẳng hạn). Những cái tôi đề cập dường như là phổ biến nhất.