Ước tính khả năng tối đa cho một phân phối bị cắt ngắn


28

Xem xét N mẫu độc lập S thu được từ một biến ngẫu nhiên X được giả sử tuân theo phân phối cắt ngắn (ví dụ phân phối chuẩn bị cắt ngắn ) của các giá trị tối thiểu và hữu hạn đã biết (hữu hạn) ab nhưng với các tham số chưa biết μσ2 . Nếu X theo một phân bố không cắt ngắn, những ước lượng tối đa khả năng Lσ 2 cho μσ 2 từ S sẽ là giá trị trung bình mẫu μμ^σ^2μσ2Svà phương sai mẫu σ 2=1μ^=1NiSi. Tuy nhiên, đối với một phân phối cắt ngắn, phương sai mẫu được xác định theo cách này được giới hạn bởi(b-một)2nên nó không phải là luôn luôn là một ước lượng phù hợp: choσ2>(b-một)2, nó không thể hội tụ trong xác suất đểσ2khiNđi đến vô cùng. Vì vậy, có vẻ như rằng μ σ 2không phải là ước lượng tối đa-khả năngμσ^2=1Ni(Siμ^)2(ba)2σ2>(ba)2σ2Nμ^σ^2μ cho phân phối cắt ngắn. Tất nhiên, điều này được mong đợi vì các tham số μσ 2 của phân phối chuẩn bị cắt không phải là giá trị trung bình và phương sai của nó.σ2μσ2

Vì vậy, ước lượng khả năng tối đa của là gì σ thông số của một phân phối cắt ngắn tối thiểu tiếng và giá trị tối đa?μσ


Bạn có chắc chắn về phân tích của bạn? Tôi nghĩ rằng bạn đang làm cho một giả định hợp lệ: cho tình hình cắt ngắn, các MLE của là không còn phương sai mẫu (và, nói chung, các MLE của μ là không còn giá trị trung bình mẫu)! σ2μ
whuber

whuber: Tôi biết, đây chính là câu hỏi của tôi: các MLEs của là gì μ trong trường hợp cắt ngắn? Thêm một câu để nhấn mạnh vào điều này. σ2μ
a3nm

1
Không có một giải pháp dạng kín. Tất cả những gì bạn có thể làm là giảm thiểu số lượng khả năng đăng nhập. Nhưng điều này về mặt chất lượng không khác gì nhiều mô hình khác, chẳng hạn như hồi quy logistic, cũng không có giải pháp dạng đóng.
whuber

whuber: Nếu điều này là sự thật, điều này khá đáng thất vọng. Bạn có tài liệu tham khảo về việc thiếu các giải pháp hình thức đóng? Có các công cụ ước tính dạng đóng không có khả năng tối đa nhưng ít nhất là nhất quán (và tùy ý không thiên vị?).
a3nm

1
@whuber: Ít nhất bạn có thể đơn giản hóa các mẫu của mình thành số liệu thống kê đầy đủ để việc giảm thiểu nhanh chóng không?
Neil G

Câu trả lời:


29

Xem xét bất kỳ gia đình quy mô địa điểm nào được xác định bởi phân phối "tiêu chuẩn" ,F

ΩF={F(μ,σ):xF(xμσ)σ>0}.

Giả sử khác biệt, chúng ta dễ dàng thấy rằng các tệp PDF là 1F.1σf((xμ)/σ)dx

Cắt bỏ những phân phối để hạn chế sự ủng hộ của họ giữa b , một < b , phương tiện mà các file PDF được thay thế bằngaba<b

f(μ,σ;a,b)(x)=f(xμσ)dxσC(μ,σ,a,b),axb

(và không cho tất cả các giá trị khác của ), nơi C ( μ , σ , một , b ) = F ( μ , σ ) ( b ) - F ( μ , σ ) ( một ) là yếu tố bình thường cần thiết để đảm bảo rằng f ( μ , σ ; a , b ) tích hợp vào sự thống nhất. (Lưu ý rằng C giống hệt 1xC(μ,σ,a,b)=F(μ,σ)(b)F(μ,σ)(a)f(μ,σ;a,b)C1trong trường hợp không cắt ngắn.) Do đó khả năng đăng nhập cho dữ liệu iid xi

Λ(μ,σ)=i[logf(xiμσ)logσlogC(μ,σ,a,b)].

Critical points (including any global minima) are found where either σ=0 (a special case I will ignore here) or the gradient vanishes. Using subscripts to denote derivatives, we may formally compute the gradient and write the likelihood equations as

0=Λμ=i[fμ(xiμσ)f(xiμσ)Cμ(μ,σ,a,b)C(μ,σ,a,b)]0=Λσ=i[fσ(xiμσ)σ2f(xiμσ)1σCσ(μ,σ,a,b)C(μ,σ,a,b)]

Because a and b are fixed, drop them from the notation and write nCμ(μ,σ,a,b)/C(μ,σ,a,b) as A(μ,σ) and nCσ(μ,σ,a,b)/C(μ,σ,a,b) as B(μ,σ). (With no truncation, both functions would be identically zero.) Separating the terms involving the data from the rest gives

A(μ,σ)=ifμ(xiμσ)f(xiμσ)σ2B(μ,σ)nσ=ifσ(xiμσ)f(xiμσ)

By comparing these to the no-truncation situation it is evident that

  • Any sufficient statistics for the original problem are sufficient for the truncated problem (because the right hand sides have not changed).

  • Our ability to find closed-form solutions relies on the tractability of A and B. If these do not involve μ and σ in simple ways, we cannot hope to obtain closed-form solutions in general.

For the case of a normal family, C(μ,σ,a,b) of course is given by the cumulative normal PDF, which is a difference of error functions: there is no chance that a closed-form solution can be obtained in general. However, there are only two sufficient statistics (the sample mean and variance will do) and the CDF is as smooth as can be, so numerical solutions will be relatively easy to obtain.


Thanks a lot for this very detailed answer! I'm not sure I get what fμ, fσ , Cμ, and Cσ are, could you define them? Also, it's obvious but to be precise maybe you could say that your expression for the pdf is for x[a,b] (and the pdf is zero outside of that). Thanks again!
a3nm

1
The usual longer notation is Cμ=μC(μ,σ,a,b), etc: as announced, it is a derivative. I will make the second change you suggest because it's an important clarification, thanks.
whuber

Also, since your answer is more general than the one I expected, I edited my question to insist less on the case of normal distributions. Thanks again for your effort.
a3nm

1
It was easier to explain at this level of generality compared to focusing on the Normal distributions! Computing the derivatives and showing the precise form of the CDF are unnecessary distractions (although useful when you start actually coding the numerical solution).
whuber

1
Thanks for fixing! You missed one of them; could you review my edit?
a3nm
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.