Tôi thừa nhận đã đánh đố câu hỏi này khá lâu trước đây trong sự nghiệp của mình. Một cách tôi đã thuyết phục bản thân mình về câu trả lời là đưa ra một cái nhìn cực kỳ thực tế, áp dụng cho tình huống, một quan điểm công nhận không có phép đo nào là hoàn hảo. Chúng ta hãy xem nơi mà có thể dẫn.
Điểm quan trọng của bài tập này là đưa ra các giả định có thể cần thiết để biện minh cho sự pha trộn hơi phức tạp của mật độ và xác suất trong các biểu thức cho khả năng. Do đó tôi sẽ nêu bật những giả định như vậy ở bất cứ nơi nào chúng được giới thiệu. Hóa ra khá nhiều thứ cần thiết, nhưng chúng khá nhẹ và bao gồm mọi ứng dụng tôi đã gặp (điều này rõ ràng sẽ bị hạn chế, nhưng vẫn bao gồm khá nhiều).
Vấn đề liên quan đến một phân phối hỗn hợp một phân phối không hoàn toàn liên tục cũng không phải là số ít. Định lý phân rã của Lebesgue cho phép chúng ta xem phân phối như một hỗn hợp của một phân phối hoàn toàn liên tục (theo định nghĩa có hàm mật độ ) và một số ít ("rời rạc"), có hàm số xác suất .F,f a f d .fafd.
Khi là thành viên của một nhóm phân phối tham số, chúng tôi có thể viếtF=Fθ
Fθ(x)=Faθ(x)+Fdθ(x)=∫x∞fa(t;θ)dt+∑t≤xfd(t;θ).
(Tất nhiên là tổng số có thể đếm được.) Ở đây, là hàm mật độ xác suất nhân với một số hệ số hỗn hợp và là một xác suất hàm khối lượng nhân vớifa(;θ)λ(θ)fd(;θ)1−λ(θ).
Chúng ta hãy diễn giải bất kỳ quan sát trong bộ dữ liệu iid là "thực sự" có nghĩa là chúng tôi có kiến thức nhất định rằng giá trị cơ bản giả định nằm trong một khoảng xung quanh nhưng mặt khác không có thông tin về Giả sử chúng ta biết tất cả các đồng bằng và epsilon, điều này không còn gây ra bất kỳ vấn đề nào cho việc xây dựng khả năng bởi vì mọi thứ đều có thể được thể hiện theo xác suất:xiX=(x1,x2,…,xn)yi(xi−δi,xi+ϵi]xi,yi.
L(X;θ)=∏i(Fθ(xi+ϵi)−Fθ(xi−δi)).
Nếu sự hỗ trợ của không có điểm ngưng tụ tại bất kỳ nàoFdθxi, đóng góp của nó vào xác suất sẽ giảm xuống tối đa một thuật ngữ duy nhất với điều kiện là các epsilon và deltas được tạo ra đủ nhỏ: sẽ không có đóng góp khi không trong sự hỗ trợ của nó.xi
Nếu chúng ta giả sử là Lipschitz liên tục ở tất cả các giá trị dữ liệu,fa(;θ) thì đồng nhất về kích thước của epsilon và deltas, chúng ta có thể xấp xỉ phần hoàn toàn liên tục của làFθ(xi)
Faθ(xi+ϵi)−Faθ(xi−δi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).
Tính đồng nhất của phép tính gần đúng này có nghĩa là khi chúng ta lấy tất cả các epsilon và deltas để phát triển nhỏ, tất cả các thuật ngữ cũng phát triển nhỏ. Do đó, có một giá trị nhỏ biến mất chi phối bởi sự đóng góp của tất cả các điều khoản lỗi này, trong đóo()ϵ(θ)>0,
L(X;θ)=∏i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=∏i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).
Điều này vẫn còn một chút lộn xộn, nhưng nó cho thấy chúng ta sẽ đi đâu. Trong trường hợp dữ liệu bị kiểm duyệt, thường chỉ một phần của mỗi thuật ngữ trong sản phẩm sẽ là khác không, bởi vì các mô hình này thường cho rằng sự hỗ trợ của phần đơn lẻ của phân phối là tách rời khỏi đường lên của phần liên tục, bất kể là gì tham số có thể là. θ(Cụ thể: ngụ ý ) Điều đó cho phép chúng tôi chia sản phẩm thành hai phần và chúng tôi có thể tính các đóng góp từ tất cả các khoảng ra khỏi phần liên tục:fd(x)≠0Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).
L(X;θ)=(∏i=1k(ϵi+δi))∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ).
(Không mất tính tổng quát, tôi đã lập chỉ mục dữ liệu để đóng góp vào phần liên tục và nếu không đóng góp vào phần số ít của khả năng.)xi,i=1,2,…,kxi,i=k+1,k+2,…,n
Biểu thức này bây giờ làm cho nó rõ ràng rằng
Vì độ rộng khoảng là cố định, chúng không đóng góp vào khả năng (chỉ được xác định tối đa một số bội số dương).ϵi+δi
Theo đó, chúng tôi có thể làm việc với biểu thức
L(X;θ)=∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ)
khi xây dựng tỷ lệ khả năng hoặc tối đa hóa khả năng. Cái hay của kết quả này là chúng ta không bao giờ cần biết kích thước của các khoảng hữu hạn được sử dụng trong đạo hàm này: các epsilon và deltas rơi ra ngay. Chúng ta chỉ cần biết rằng chúng ta có thể làm cho chúng đủ nhỏ để biểu thức khả năng chúng ta thực sự làm việc là một xấp xỉ đầy đủ với biểu thức khả năng chúng ta sẽ sử dụng nếu chúng ta biết các kích thước khoảng.