Vẽ mẫu từ một hỗn hợp hữu hạn của phân phối bình thường?


10

Sau một số bước cập nhật Bayes, tôi còn lại một bản phân phối phía sau có dạng hỗn hợp các bản phân phối bình thường,Đó là, tham số \ theta được rút ra từ một bản phân phối có PDF được đưa ra dưới dạng hỗn hợp có trọng số của các tệp PDF thông thường và không phải là tổng của RV thông thường. Tôi muốn vẽ các mẫu \ theta \ sim \ Pr (\ theta | \ text {data}) để sử dụng trong một xấp xỉ lấy mẫu quan trọng của hậu thế này. Trong thực tế, tổng số i có thể có một số lượng lớn các điều khoản, do đó việc chọn một thuật ngữ i theo trọng số \ {w_i \} và sau đó rút ra \ theta \ sim N (\ mu_i, \ sigma ^ 2)

Pr(θ|data)=i=1kwiN(μi,σ2).
θ ~ Pr ( θ | dữ liệu ) i i { w i } θ ~ N ( μ i , σ 2 )θθPr(θ|data)ii{wi}θN(μi,σ2). Có cách nào hiệu quả để vẽ mẫu từ phía sau của mẫu này không?

Bạn đã thực sự thử phương pháp chọn rồi ném chưa? Việc lựa chọn có thể được thực hiện một cách hợp lý nhanh chóng các bước O (k).
dmckee --- ex-moderator mèo con

1
Nếu giải pháp của Barron thực sự không chính xác và trên thực tế bạn có nghĩa là "mô hình hỗn hợp", bạn có thể vui lòng sử dụng thuật ngữ đó không?
Neil G

1
Neil G: Tôi không phải là một nhà thống kê thương mại, mà là một nhà vật lý đôi khi cần sử dụng số liệu thống kê. Như vậy, tôi không biết thuật ngữ thích hợp để mô tả những gì tôi cần. Tuy nhiên, tôi có thể tiếp tục và chỉnh sửa câu hỏi ngay bây giờ để làm rõ hơn rằng các tệp PDF đang được tóm tắt chứ không phải RV.
Chris Granade

1
@ChrisGranade: Tôi đã không cố gắng đến với bạn. Tôi chỉ muốn chắc chắn rằng đó là những gì bạn muốn nói và đề nghị chỉnh sửa.
Neil G

1
Tại sao không thực tế khi chọn dựa trên các trọng số và một mẫu từ phân phối đồng đều trên , sau đó lấy mẫu ? Điều này chỉ đắt hơn vừa phải so với lấy mẫu một phân phối bình thường duy nhất, chi phí không phụ thuộc vào số lượng phân phối hỗn hợp và không phụ thuộc vào các phân phối đó là bình thường. { w i } [ 0 , 1 ] N ( μ i , σ 2 ) ki{wi}[0,1]N(μi,σ2)k
Jed Brown

Câu trả lời:


6

Về nguyên tắc, người ta có thể chọn trước số lượng mẫu được rút ra từ mỗi phân phối phụ, sau đó truy cập mỗi phân phối phụ chỉ một lần và rút ra số lượng điểm.

Đó là

  1. Tìm tập hợp ngẫu nhiên sao cho và tôn trọng các trọng số.n = k i = 1 n i<n1,n2,,nk>n=i=1kni

    Tôi tin rằng bạn làm điều này bằng cách vẽ phân phối Poisson một phân phối đa cực (xem các bình luận) của trung bình cho mỗi phân phối phụ và sau đó chuẩn hóa tổng thành .nwinn

    Công việc ở đây làO(k)O(n)

  2. Sau đó làm

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    Công việc ở đây làO(n)

Mặc dù điều này có nghĩa là bạn không nhận được thứ tự ngẫu nhiên. Nếu yêu cầu thứ tự ngẫu nhiên, sau đó bạn phải xáo trộn các lần rút (cũng lớn ).O(n)

Có vẻ như bước đầu tiên chiếm ưu thế trong thời gian chạy và cùng thứ tự với thuật toán ngây thơ, nhưng nếu bạn chắc chắn rằng tất cả bạn có thể xấp xỉ các phân phối Poisson với phân phối Bình thường và tăng tốc bước đầu tiên.win1


Phân phối của không phải là phân phối Poisson nếu cố định, mà là phân phối nhị thức. nnin
Frédéric Grosshans

@ FrédéricGrosshans Uhm ... đây là nơi tôi thừa nhận điểm yếu đáng lo ngại của mình trong xác suất. Nhìn tôi nghĩ bạn có thể đúng. Tôi không có liên kết để ném các phân phối nhị thức tùy ý, nhưng wikipedia có một số tài liệu tham khảo . Ngoài ra còn có một mối quan hệ giữa Poisson và Binomial mà tôi sẽ tuyên bố là chịu trách nhiệm cho sự không chắc chắn của tôi. Vâng, đó là vé.
dmckee --- ex-moderator mèo con

1
@dmckee: Câu trả lời hay cho việc vẽ từ mô hình hỗn hợp, ngoại trừ việc đó phải là phân phối đa thức chứ không phải là phân phối Poisson trong bước 1.
Neil G

3

Lưu ý: Phiên bản gốc của câu hỏi này đã hỏi về "tổng phân phối bình thường" mà câu trả lời sau có thể hữu ích. Tuy nhiên, sau một chút thảo luận về câu trả lời này, câu trả lời của @Geoff, và về chính câu hỏi, rõ ràng câu hỏi thực sự là lấy mẫu "hỗn hợp phân phối bình thường" mà câu trả lời này không áp dụng được.


Tổng các phân phối bình thường là một phân phối bình thường, vì vậy bạn có thể tính toán các tham số của phân phối đơn này và sau đó chỉ cần rút ra các mẫu từ đó. Nếu chúng ta gọi phân phối đó là thì,N(μsum,σsum2)

μsum=i=1kwiμi

σsum2=i=1kwi2σi2

3
Nói một cách ngắn gọn, Chris đang tính tổng các hàm mật độ xác suất, không phải các biến ngẫu nhiên.
Geoff Oxberry

2
Chris muốn một bản PDF có (ít nhất là về nguyên tắc) nhiều lỗi trong đó. Đó là, ông là tổng số PDF, không phải là PDF của một khoản tiền.
dmckee --- ex-moderator mèo con

1
Đúng là tổng các biến ngẫu nhiên được phân phối bình thường tự nó là một biến ngẫu nhiên được phân phối bình thường. Tuy nhiên, tổng phân phối bình thường không phải là phân phối bình thường. Vì vậy, nếu và , đúng là , nhưng . (Tín dụng đến @ChrisGranade để được giải thích.)X 2 ~ N ( μ 2 , σ 2 2 ) X 1 + X 2 ~ N ( μ 1 + μ 2 , σ 2 1 + σ 2 2 ) P D F ( X 1 + X 2 ) P D F (X1N(μ1,σ12)X2N(μ2,σ22)X1+X2N(μ1+μ2,σ12+σ22)PDF(X1+X2)PDF(X1)+PDF(X2)
Geoff Oxberry

2
@dmckee: đó không phải là "tổng số phân phối bình thường", đó là "hỗn hợp phân phối bình thường".
Neil G

2
Nhận xét @Barron không được coi là một phần thiết yếu của trang. Bạn chắc chắn nên chỉnh sửa câu trả lời của mình để bao gồm ý chính của các bình luận để những độc giả không nhìn vào các bình luận không bị nhầm lẫn.
David Ketcheson

2

Cập nhật : Câu trả lời này không chính xác, xuất phát từ sự nhầm lẫn về thuật ngữ (xem chuỗi bình luận bên dưới để biết chi tiết); Tôi chỉ để lại nó như một hướng dẫn để mọi người không đăng lại câu trả lời này (ngoài Barron). Xin đừng bỏ phiếu lên hoặc xuống.

Tôi chỉ sử dụng các thuộc tính của các biến ngẫu nhiên để giảm nó thành một biến ngẫu nhiên thường được phân phối. Các tổng của hai độc lập, biến ngẫu nhiên phân phối chuẩn là chính nó là một biến ngẫu nhiên , vì vậy nếu và , sau đóX 2 ~ N ( μ 2 , σ 2 2 )X1N(μ1,σ12)X2N(μ2,σ22)

X1+X2N(μ1+μ2,σ12+σ22).

Ngoài ra, nếu , thìw1R

w1X1N(w1μ1,w12σ12).

Sử dụng hai kết quả này kết hợp, sau đó

Pr(θ|data)N(i=1kwiμi,i=1kwi2σi2).

Vì vậy, trong trường hợp này, bạn sẽ chỉ cần lấy các mẫu từ một phân phối duy nhất, có thể dễ điều khiển hơn nhiều.


2
Đây là giải pháp cho một vấn đề khác có thể thấy từ thực tế rằng phân phối ban đầu là đa phương thức và đề xuất của bạn là đơn phương.
Chris Ferrie

@ChrisFerrie: Tôi tin bạn, nhưng dựa trên ký hiệu, tôi bối rối không biết tại sao phân phối ở trên sẽ là đa phương thức, trong khi tổng của hai biến ngẫu nhiên Gaussian độc lập sẽ không. Tôi đang thiếu gì ở đây?
Geoff Oxberry

Tôi nghĩ rằng sự nhầm lẫn là chúng ta không nhìn vào một tổng số các biến ngẫu nhiên, nhưng một tệp PDF là tổng của nhiều tệp PDF. Chúng không phải lúc nào cũng giống nhau, vì . Thay vào đó, PDF của chúng tôi có thể được coi là ngoài lề so với biến ngẫu nhiên . ip(X1+X2)p(X1)+p(X2)i
Chris Granade

Ah, bạn đang xem tổng số các tệp PDF. Vâng, đó là một con thú hoàn toàn khác. Bây giờ tôi đọc câu hỏi kỹ hơn, tôi thấy những gì bạn đang nói và tôi sẽ xóa câu trả lời của mình. Cảm ơn!
Geoff Oxberry

Tôi đã xóa bỏ câu trả lời đã bị xóa trước đây của mình chỉ để làm hướng dẫn cho người khác để không ai khác trả lời câu hỏi này như Barron và tôi đã làm. Xin vui lòng không lên hoặc xuống bình chọn câu trả lời của tôi nữa.
Geoff Oxberry
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.