Hàm khả năng tối đa cho phân phối kiểu hỗn hợp


11

Nói chung, chúng tôi tối đa hóa một chức năng

L(θ;x1,,xn)=i=1nf(xiθ)

Trong đó là hàm mật độ xác suất nếu phân phối cơ bản là liên tục và hàm khối lượng xác suất (có tổng thay vì sản phẩm) nếu phân phối rời rạc.f

Làm cách nào để chỉ định hàm khả năng nếu phân phối cơ bản là hỗn hợp giữa phân phối liên tục và phân phối rời rạc, với các trọng số trên mỗi tùy thuộc vào ?θ


2
Chính xác thì điều gì không áp dụng theo ý kiến ​​của bạn ..?
Tim

@Tim, sự nhầm lẫn của tôi xuất phát từ việc không biết rằng hàm khả năng có định nghĩa chung chung hơn định nghĩa chuẩn về xác suất liên tục và rời rạc. Đó là, suy nghĩ của tôi là như sau. Phân phối không liên tục, cũng không rời rạc nên không thể có chức năng khả năng. Vì, không có chức năng khả năng do đó MLE không áp dụng.
gregorias

1
Phân phối có thể không rời rạc hoặc liên tục, ví dụ như phân phối Cantor và như được lưu ý bởi khả năng của Xi'an được xác định theo các hàm mật độ xác suất, do đó bạn chỉ cần pdf phân phối của mình để xác định khả năng.
Tim

@Tim, tôi khá ý thức được rằng có những bản phân phối khác nhau. Đó là điểm tôi đang cố gắng thực hiện. Lưu ý rằng khả năng là một khái niệm tổng quát hơn pdf. Cụ thể, chỉ các biến liên tục có pdf (chính xác là các phân phối có nó). Ví dụ: bản phân phối Cantor mà bạn đề cập không có pdf.
gregorias

Nó phụ thuộc vào cách bạn định nghĩa pdf, pmf có thể được coi là trường hợp đặc biệt của pdf. Bạn có thể định nghĩa các bản phân phối rời rạc của pdf theo thuật ngữ của dirac delta, v.v., vì vậy việc phân phối là loại rời rạc hoặc hỗn hợp không phải là vấn đề.
Tim

Câu trả lời:


7

Hàm khả năng là mật độ của dữ liệu tại giá trị quan sát biểu thị dưới dạng hàm của Mật độ này được xác định cho mọi giá trị (chấp nhận được) của gần như ở mọi nơi trên sự hỗ trợ của , , dựa trên một thước đo cụ thể so với không phụ thuộc vào . Đối với bất kỳ gia đình tham số nào, cần tồn tại một biện pháp thống trị như vậy trên tất cả các , do đó có mật độ, do đó có khả năng.x θ ( θ | x ) = f ( x | θ ) θ x X X θ θ(θ|x)xθ

(θ|x)=f(x|θ)
θxXXθθ

Đây là một đoạn trích có liên quan từ mục Wikipedia về các chức năng khả năng (stress là của tôi):

Trong lý thuyết xác suất lý thuyết đo lường, hàm mật độ được định nghĩa là đạo hàm Radon-Nikodym của phân phối xác suất liên quan đến một biện pháp thống trị. Điều này cung cấp một hàm khả năng cho bất kỳ mô hình xác suất nào với tất cả các phân phối, cho dù là rời rạc, hoàn toàn liên tục, hỗn hợp hay thứ gì khác. (Khả năng sẽ tương đương, ví dụ, đối với ước tính tham số, chỉ khi chúng là các dẫn xuất Nikodym của Radon kèm theo cùng một biện pháp thống trị.)


7

Tôi thừa nhận đã đánh đố câu hỏi này khá lâu trước đây trong sự nghiệp của mình. Một cách tôi đã thuyết phục bản thân mình về câu trả lời là đưa ra một cái nhìn cực kỳ thực tế, áp dụng cho tình huống, một quan điểm công nhận không có phép đo nào là hoàn hảo. Chúng ta hãy xem nơi mà có thể dẫn.

Điểm quan trọng của bài tập này là đưa ra các giả định có thể cần thiết để biện minh cho sự pha trộn hơi phức tạp của mật độ và xác suất trong các biểu thức cho khả năng. Do đó tôi sẽ nêu bật những giả định như vậy ở bất cứ nơi nào chúng được giới thiệu. Hóa ra khá nhiều thứ cần thiết, nhưng chúng khá nhẹ và bao gồm mọi ứng dụng tôi đã gặp (điều này rõ ràng sẽ bị hạn chế, nhưng vẫn bao gồm khá nhiều).

Vấn đề liên quan đến một phân phối hỗn hợp một phân phối không hoàn toàn liên tục cũng không phải là số ít. Định lý phân rã của Lebesgue cho phép chúng ta xem phân phối như một hỗn hợp của một phân phối hoàn toàn liên tục (theo định nghĩa có hàm mật độ ) và một số ít ("rời rạc"), có hàm số xác suất .F,f a f d .fafd.

Khi là thành viên của một nhóm phân phối tham số, chúng tôi có thể viếtF=Fθ

Fθ(x)=Faθ(x)+Fdθ(x)=xfa(t;θ)dt+txfd(t;θ).

(Tất nhiên là tổng số có thể đếm được.) Ở đây, là hàm mật độ xác suất nhân với một số hệ số hỗn hợp và là một xác suất hàm khối lượng nhân vớifa(;θ)λ(θ)fd(;θ)1λ(θ).

Chúng ta hãy diễn giải bất kỳ quan sát trong bộ dữ liệu iid là "thực sự" có nghĩa là chúng tôi có kiến ​​thức nhất định rằng giá trị cơ bản giả định nằm trong một khoảng xung quanh nhưng mặt khác không có thông tin về Giả sử chúng ta biết tất cả các đồng bằng và epsilon, điều này không còn gây ra bất kỳ vấn đề nào cho việc xây dựng khả năng bởi vì mọi thứ đều có thể được thể hiện theo xác suất:xiX=(x1,x2,,xn)yi(xiδi,xi+ϵi]xi,yi.

L(X;θ)=i(Fθ(xi+ϵi)Fθ(xiδi)).

Nếu sự hỗ trợ của không có điểm ngưng tụ tại bất kỳ nàoFdθxi, đóng góp của nó vào xác suất sẽ giảm xuống tối đa một thuật ngữ duy nhất với điều kiện là các epsilon và deltas được tạo ra đủ nhỏ: sẽ không có đóng góp khi không trong sự hỗ trợ của nó.xi

Nếu chúng ta giả sử là Lipschitz liên tục ở tất cả các giá trị dữ liệu,fa(;θ) thì đồng nhất về kích thước của epsilon và deltas, chúng ta có thể xấp xỉ phần hoàn toàn liên tục của làFθ(xi)

Faθ(xi+ϵi)Faθ(xiδi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).

Tính đồng nhất của phép tính gần đúng này có nghĩa là khi chúng ta lấy tất cả các epsilon và deltas để phát triển nhỏ, tất cả các thuật ngữ cũng phát triển nhỏ. Do đó, có một giá trị nhỏ biến mất chi phối bởi sự đóng góp của tất cả các điều khoản lỗi này, trong đóo()ϵ(θ)>0,

L(X;θ)=i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).

Điều này vẫn còn một chút lộn xộn, nhưng nó cho thấy chúng ta sẽ đi đâu. Trong trường hợp dữ liệu bị kiểm duyệt, thường chỉ một phần của mỗi thuật ngữ trong sản phẩm sẽ là khác không, bởi vì các mô hình này thường cho rằng sự hỗ trợ của phần đơn lẻ của phân phối là tách rời khỏi đường lên của phần liên tục, bất kể là gì tham số có thể là. θ(Cụ thể: ngụ ý ) Điều đó cho phép chúng tôi chia sản phẩm thành hai phần và chúng tôi có thể tính các đóng góp từ tất cả các khoảng ra khỏi phần liên tục:fd(x)0Fa(x+ϵ)Fa(xϵ)=o(ϵ).

L(X;θ)=(i=1k(ϵi+δi))i=1kfa(xi;θ) i=k+1nfd(xi;θ).

(Không mất tính tổng quát, tôi đã lập chỉ mục dữ liệu để đóng góp vào phần liên tục và nếu không đóng góp vào phần số ít của khả năng.)xi,i=1,2,,kxi,i=k+1,k+2,,n

Biểu thức này bây giờ làm cho nó rõ ràng rằng

Vì độ rộng khoảng là cố định, chúng không đóng góp vào khả năng (chỉ được xác định tối đa một số bội số dương).ϵi+δi

Theo đó, chúng tôi có thể làm việc với biểu thức

L(X;θ)=i=1kfa(xi;θ) i=k+1nfd(xi;θ)

khi xây dựng tỷ lệ khả năng hoặc tối đa hóa khả năng. Cái hay của kết quả này là chúng ta không bao giờ cần biết kích thước của các khoảng hữu hạn được sử dụng trong đạo hàm này: các epsilon và deltas rơi ra ngay. Chúng ta chỉ cần biết rằng chúng ta có thể làm cho chúng đủ nhỏ để biểu thức khả năng chúng ta thực sự làm việc là một xấp xỉ đầy đủ với biểu thức khả năng chúng ta sẽ sử dụng nếu chúng ta biết các kích thước khoảng.


1
Câu trả lời tuyệt vời (+1). Một gợi ý để cải thiện - trong trường hợp có sự hỗ trợ chung tại một điểm (để bạn không thể tách các thuật ngữ rời rạc và liên tục trong tổng số) thì thuật ngữ rời rạc hoàn toàn chi phối thuật ngữ liên tục, vì vậy khả năng sẽ bỏ qua liên tục một phần tại thời điểm đó (có hiệu quả thiết lập nó bằng không). Điều này có nghĩa là ngay cả khi có một điểm với sự hỗ trợ chung, nó sẽ được coi là chỉ là phần riêng biệt và bạn sẽ nhận được cùng một phân tách sản phẩm bạn nhận được ở đây. (Trừ khi tôi đang thiếu một cái gì đó.)
Ben - Tái lập lại Monica

1
@Ben Cảm ơn bạn đã nhận xét sâu sắc. Tuy nhiên, tôi muốn tránh vấn đề đó hơn, bởi vì tôi hơi lo ngại về một số trường hợp "cạnh" có thể phát sinh. Chẳng hạn, người ta sẽ làm gì khi trở thành vô hạn tại một trong những điểm hỗ trợ của ? fafd
whuber

1
Vâng, điều đó sẽ trở nên gai góc. Dodge hiểu!
Ben - Tái lập Monica

1
Tôi đã thêm một câu trả lời lưu ý một khía cạnh bổ sung của vấn đề này, trong đó nó được giải quyết dễ dàng nhất bằng cách bỏ qua mật độ liên tục trong sự hỗ trợ của phần rời rạc. Xin vui lòng đọc câu trả lời của tôi và xem nếu điều này thêm động lực nào nữa để xử lý khía cạnh này của vấn đề. (Trực giác của tôi là ngay cả khi trở nên vô hạn tại một điểm trong sự hỗ trợ của nó vẫn sẽ được coi là nhỏ hơn vô hạn so với phần rời rạc.)fafd
Ben - Tái lập lại Monica

6

Câu hỏi này là một vấn đề cơ bản cực kỳ quan trọng trong phân tích khả năng, và cũng là một vấn đề rất tinh tế và khó khăn, vì vậy tôi khá ngạc nhiên về một số câu trả lời hời hợt mà nó nhận được trong các bình luận.

Trong mọi trường hợp, trong câu trả lời này, tôi sẽ chỉ thêm một điểm nhỏ vào câu trả lời xuất sắc của người đánh bóng (mà tôi nghĩ là cách tiếp cận chính xác cho vấn đề này). Điểm đó là các hàm khả năng trong ngữ cảnh này xuất phát từ các hàm mật độ theo một biện pháp thống trị hỗn hợp và điều này dẫn đến một đặc tính thú vị là chúng ta có thể điều chỉnh kích thước tương đối của hàm khả năng tùy ý trên các phần liên tục và rời rạc và chúng ta vẫn có giá trị chức năng khả năng . Điều này dẫn đến một câu hỏi rõ ràng về cách chúng ta có thể thực hiện các kỹ thuật khả năng khi không có chức năng khả năng duy nhất.

Minh họa điểm này đòi hỏi một số trình bày sơ bộ về mật độ lấy mẫu dưới dạng đạo hàm Radon-Nikodym của thước đo xác suất, vì vậy hãy đồng ý với tôi. Trước tiên tôi sẽ trình bày cách lấy hàm mật độ cho một biện pháp thống trị hỗn hợp và sau đó tôi sẽ chỉ ra lý do tại sao điều này dẫn đến khả năng mở rộng các phần liên tục và rời rạc của khả năng theo ý muốn. Cuối cùng, tôi sẽ thảo luận về ý nghĩa của vấn đề này để phân tích dựa trên khả năng và đưa ra ý kiến ​​của tôi về giải pháp của nó. Tôi nghĩ rằng điều này về cơ bản được giải quyết bằng phương pháp whuber trình bày trong câu trả lời của mình, nhưng nó sẽ cần được mở rộng theo hướng mà tôi đã thảo luận trong các ý kiến ​​cho câu trả lời đó, để đảm bảo rằng mỗi điểm trong phần hỗ trợ của phần rời rạc đều bỏ qua phần liên tục tại điểm đó.


Biểu thị mật độ bằng cách sử dụng thước đo thống trị: Cách tiếp cận tiêu chuẩn để xử lý mật độ hỗn hợp cho các biến ngẫu nhiên thực là sử dụng thước đo Lebesgue làm thước đo thống trị cho phần liên tục và thước đo đếm (trên một số tập hợp đếm được chỉ định ) làm thước đo thống trị cho phần rời rạc. Điều này dẫn đến đạo hàm Radon-Nikodym được xác định bởi:λLEB λCOUNTDR

P(XA|θ)=Af(x|θ) dλLEB(x)+Ap(x|θ) dλCOUNT(x).

(Lưu ý rằng tích phân sau suy biến thành một tổng so với các phần tử . Chúng tôi viết nó ở đây như một tích phân để làm cho sự giống nhau giữa hai thuật ngữ rõ ràng hơn.) sử dụng một mật độ duy nhất bằng cách lấy số đo và cài đặt:xADλλLEB+λCOUNT

f(x|θ)I(xD)f(x|θ)+I(xD)p(x|θ).

Sử dụng làm thước đo thống trị, sau đó chúng tôi có biểu thức sau cho xác suất quan tâm:λ

P(XA|θ)=Af(x|θ) dλ(x).

Điều này cho thấy hàm là một dẫn xuất Radon-Nikodym hợp lệ của thước đo xác suất trên , do đó, nó là mật độ hợp lệ cho biến ngẫu nhiên này. Vì nó phụ thuộc vào và sau đó chúng ta có thể xác định hàm khả năng hợp lệ bằng cách giữ cố định và coi đây là hàm của .fXxθLx(θ)f(x|θ)xθ


Ảnh hưởng của việc nhân rộng các biện pháp thống trị: Bây giờ chúng ta đã hiểu được việc trích xuất mật độ từ một biện pháp thống trị, điều này dẫn đến một tính chất lạ nơi chúng ta có thể mở rộng quy mô tương đối của khả năng đối với các phần liên tục và rời rạc và chúng ta vẫn có khả năng hợp lệ chức năng. Nếu bây giờ chúng ta sử dụng biện pháp thống trị cho một số hằng số dương và thì chúng ta bây giờ có được tương ứng mật độ Radon-Nikodym:λαλLEB+βλCOUNTα>0β>0

f(x|θ)I(xD)αf(x|θ)+I(xD)βp(x|θ).

Sử dụng làm thước đo thống trị, sau đó chúng tôi có biểu thức sau cho xác suất quan tâm:λ

P(XA|θ)=Af(x|θ) dλ(x).

Như trong trường hợp trên, chúng ta có thể xác định hàm khả năng hợp lệ bằng cách giữ cố định và coi đây là hàm của . Bạn có thể thấy rằng quyền tự do thay đổi và hiện cho phép chúng tôi tự do chia tỷ lệ kích thước tương đối của các phần liên tục và rời rạc trong chức năng khả năng theo ý muốn và vẫn có chức năng khả năng hợp lệ (mặc dù liên quan đến một biện pháp thống trị khác nhau, với tỷ lệ tương ứng của các bộ phận).Lx(θ)f(x|θ)xθαβ

Kết quả cụ thể này chỉ là một phần của kết quả tổng quát hơn mà mọi hàm khả năng được xác định liên quan đến một số biện pháp thống trị cơ bản (ngầm) và không có hàm khả năng duy nhất nào có thể được định nghĩa bất kể biện pháp cơ bản này. Tuy nhiên, trong trường hợp cụ thể này, chúng tôi thấy rằng nó vẫn dựa trên một biện pháp thống trị là sự kết hợp giữa biện pháp Lebesgue và biện pháp đếm, vì vậy chúng tôi chưa thực sự hiểu được biện pháp này. Do không có sự biện minh khách quan nào cho việc hình thành thước đo thống trị từ trọng số bằng nhau của thước đo Lebesgue và thước đo đếm, nên hàm ý của điều này là không có sự biện minh khách quan nào cho tỷ lệ tương đối cho các phần liên tục và rời rạc của hàm khả năng.


Ý nghĩa của phân tích khả năng: Điều này dường như có thể đưa chúng ta vào một chút khó khăn. Chúng ta có thể tùy ý chia tỷ lệ các phần rời rạc và liên tục của hàm khả năng lên hoặc xuống ở kích thước tương đối và vẫn có yêu cầu hợp lý cho việc đây là hàm khả năng hợp lệ. May mắn thay, vấn đề này có thể được giải quyết bằng cách thừa nhận rằng các hằng số tỉ lệ sẽ đi ra của hàm khả năng trong cùng một cách như minh họa trong whuber của câu trả lời. Đó là, nếu chúng ta có và chúng ta sẽ nhận được:x1,...,xkDxk+1,...,xnD

Lx(θ)=i=1nLxi(θ)=i=1nf(xi|θ)=(i=1k1αf(xi|θ))(i=k+1n1βp(xi|θ))=1αkβnk(i=1kf(xi|θ))(i=k+1np(xi|θ))=1αkβnki=1nf(xi|θ)i=1nf(xi|θ)=i=1nLxi(θ)=Lx(θ).

Điều này cho thấy các thuộc tính tỷ lệ của thước đo thống trị chỉ ảnh hưởng đến hàm khả năng thông qua hằng số chia tỷ lệ có thể bị bỏ qua trong các vấn đề MLE tiêu chuẩn. Lưu ý rằng trong điều trị của tôi về vấn đề này, tính chất hữu ích này đã xảy ra do kết quả trực tiếp của thực tế là mật độ lấy mẫu được xác định theo cách bỏ qua mật độ liên tục khi chúng tôi hỗ trợ phần rời rạc. (Điều này khác với whuber của . Câu trả lời, nơi ông cho phép một sự kết hợp của các bộ phận này tôi nghĩ rằng sức mạnh này thực sự dẫn đến một số vấn đề khó khăn, xem ý kiến của tôi để câu trả lời đó.)


Kết quả này không giới hạn trong các trường hợp hỗn hợp. Ngay cả trong các trường hợp đơn giản với các biến ngẫu nhiên liên tục hoặc rời rạc, nếu bạn thay đổi biện pháp thống trị cơ bản, nó sẽ đưa ra một biến thể tương ứng trong đạo hàm Radon-Nikodym, sau đó dẫn đến một hàm khả năng khác.


3
+1. Tôi nghĩ rằng bạn đã thực hiện tốt công việc kết nối lời giải thích cơ bản của tôi với câu trả lời lý thuyết biện pháp ban đầu của @ Xi'an, qua đó đưa chúng tôi (rất nhiều thông tin) vào vòng tròn đầy đủ.
whuber

3

Một ví dụ trong đó điều này xảy ra, đó là khả năng được đưa ra bởi một mô hình xác suất của loại liên tục / rời rạc, là với dữ liệu bị kiểm duyệt. Để biết ví dụ, xem hồi quy lỗi bình thường có trọng số với kiểm duyệt .

Nói chung, điều này có thể được xây dựng bằng cách sử dụng lý thuyết đo lường. Sau đó, giả sử một mô hình thống kê có hàm mô hình là một dẫn xuất Radon-Nikodym đối với một thước đo chung (không nên phụ thuộc vào tham số ). Sau đó, hàm khả năng dựa trên một mẫu độc lập là . Điều này thực sự giống nhau trong các trường hợp liên tục, rời rạc và hỗn hợp.bước sóng θ x 1 , x 2 , ... , x n Π i f ( x i ; θ )f(x;θ)λθx1,x2,,xnif(xi;θ)

Một ví dụ đơn giản có thể là mô hình lượng mưa hàng ngày. Đó có thể là 0, với xác suất dương hoặc dương. Vì vậy, đối với biện pháp thống trị chúng ta có thể sử dụng tổng số đo Lebesgue trên và một nguyên tử ở mức 0. ( 0 , )λ(0,)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.