Ước tính tham số phân phối theo cấp số nhân với dữ liệu được đánh dấu


8

Tôi có các dữ liệu sau, có thể được mô hình hóa bằng phân phối theo cấp số nhân

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

Để kiểm tra xem dữ liệu có tuân theo phân phối hàm mũ không, tôi sẽ sử dụng thống kê kiểm tra chi bình phương. Nhưng để làm điều này tôi cũng cần tính toán lambda (MLE=1X¯).

Vì vậy, câu hỏi của tôi là: làm thế nào chúng ta nên chọn trung điểm của khoảng, nếu khoảng cuối cùng là từ 120 đến vô cùng?

Câu trả lời:


10

Tôi sẽ không sử dụng điểm giữa cho bất kỳ khoảng thời gian nào (có lẽ là dự đoán ban đầu cho một số quy trình lặp).

Nếu dữ liệu thực sự từ một phân phối theo cấp số nhân, các giá trị trong mỗi thùng sẽ bị lệch phải; giá trị trung bình sẽ được dự kiến ​​là trái trung bình của ranh giới bin.

Lưu ý rằng phương trình λ^=1X¯là phù hợp nếu bạn có tất cả các dữ liệu. Với dữ liệu đã được đánh dấu, bạn cần tối đa hóa khả năng theo cấp số nhân (tức là kiểm duyệt giữa chừng).

[Đóng góp cho khả năng đăng nhập của ni quan sát trong thùng i - những người ở giữa liui -- Là nilog(F(li)F(ui)) (trong đó hai thuật ngữ trong F là các hàm của (các) tham số của phân phối).]

Do thiếu thuộc tính bộ nhớ của số mũ, nếu bạn có xấp xỉ tốt với giá trị trung bình của số mũ, bạn cũng có một xấp xỉ tốt về số tiền mà giá trị trung bình của phân phối trên một số giá trị x0 vượt quá x0.

Vì vậy (giả sử bạn không trực tiếp tối đa hóa khả năng * trên khoảng thời gian kiểm duyệt dữ liệu như tôi đã đề xuất), bạn có thể bắt đầu với một số ước tính gần đúng về giá trị trung bình (m(0) nói) và sử dụng 120+m(0) như một "trung tâm" của đuôi trên.

Điều này sau đó có thể được sử dụng để có được ước tính tốt hơn về tham số (và do đó là giá trị trung bình) và do đó có được ước tính cải thiện về giá trị trung bình có điều kiện trong mỗi thùng bao gồm cả thông số trên cùng. [Nếu bạn muốn một cách tiếp cận như vậy, có lẽ tôi sẽ nghiêng về làm EM trực tiếp.]

Một số ước tính đơn giản về giá trị trung bình có thể được lấy một cách nhanh chóng. Ví dụ: vì 41% giá trị xảy ra dưới 20,exp(20λ^(0))=10.41 tương ứng với ước tính trung bình gần với 38. Ngoài ra, người ta có thể có được ước tính nhãn cầu nhanh về trung vị (khoảng dưới 30, có lẽ khoảng 28), vì vậy giá trị trung bình phải ở đâu đó gần28/log(2)hoặc xung quanh 40.

Một trong hai điều này sẽ hợp lý để sử dụng như một dự đoán ban đầu ở khoảng cách trên 120 để đặt ước tính cho giá trị trung bình có điều kiện cho thùng cuối cùng.

* Một cách khác để tối đa hóa khả năng sẽ là giảm thiểu thống kê chi bình phương; điều chỉnh tương tự cho df sẽ được sử dụng trong trường hợp đó. Thống kê chi bình phương tương đối dễ tính và khá đơn giản để tối ưu hóa cho một tham số duy nhất:
nhập mô tả hình ảnh ở đây


8

Từ quan điểm lý thuyết, khả năng mẫu bạn thu được sẽ được viết là trong đó là các ranh giới bin (giả sử rằng mỗi thùng đại diện cho xác suất quan sát ) và là số lượng quan sát trong bin . Tại đây, bạn có thùng, với và . Nói chung, tối đa hóa khả năng đăng nhập của biểu thức này sẽ cần một cách tiếp cận số. Sử dụng

L(λx)=j=1m(eλxj1eλxj)nj,
(x0,x1,,xm)xj1<Xxjnjjm=6(x0,x1,,xm)=(0,20,40,60,90,120,)(n1,,nm)=(41,19,16,13,9,2)Về mặt toán học , tôi đã lấy được đạo hàm của khả năng đăng nhập là Điều này mang lại giải pháp số
λ=760sinh10λ+sinh20λ+1090coth15λ3940.
λ^0.025562426096803193.

1
(+1) Vì vậy, một phương tiện "gần 38" hoặc "khoảng 40" :)
Scortchi - Tái lập Monica

1

Nếu bạn quan tâm đến một hình thức đóng, ước tính đơn giản, UWSE (Công cụ ước tính không gian trọng lượng duy nhất) có thể hữu ích. Cụ thể, nếu là tần số quan sát tương đối trong khoảng , thì: w[0,20]^  [0,20] 

 λUWSE^=ln(1w[0,20]^)20 

Trong trường hợp này, , và do đó, w[0,20]^=0.41 

 λUWSE^=0.02638164 

Mặc dù, tất cả những gì có thể nói về UWSE là nó là một ước tính phù hợp. Dưới đây là một liên kết đến lời giải thích đầy đủ của người ước tính: https://paradsp.wordpress.com/ - cuộn toàn bộ xuống phía dưới.


Đây là một ý tưởng thú vị, nhưng có vẻ như nó không được sử dụng trong các tình huống mà bạn có nhiều thông tin hơn bạn đang sử dụng. Trong trường hợp hiện tại, có sáu thùng không chồng chéo. Sẽ là một sự xấu hổ khi bỏ qua năm trong số những người đó một cách tùy tiện.
whuber

1
Bạn hoàn toàn đúng. UWSE được dự định xử lý thông tin tối thiểu. Sẽ rất thú vị để xem những gì các ứng dụng khác phát sinh. Trong trường hợp này, tôi nghĩ rằng nó sẽ có ích cho những người không muốn tham gia vào công việc số. @Glen_b giải thích điều này ở trên, nhưng cuối cùng nó thuộc thể loại của UWSE - cái chung hơn.
CYP450
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.