Suy luận biến đổi, phân kỳ KL yêu cầu đúng


12

Theo hiểu biết của tôi (rất khiêm tốn) về suy luận đa dạng, người ta cố gắng xấp xỉ một phân phối chưa biết bằng cách tìm một phân phối tối ưu hóa các điều sau:pq

KL(p||q)=xp(x)logp(x)q(x)

Bất cứ khi nào tôi đầu tư thời gian để hiểu suy luận đa dạng, tôi tiếp tục nhấn công thức này và không thể không cảm thấy như mình đang thiếu điểm. Có vẻ như tôi cần biết để tính toán . Nhưng toàn bộ vấn đề là tôi không biết phân phối này .pKL(p||q)p

Đó là điểm chính xác đó đã làm tôi khó chịu mỗi khi tôi cố gắng đọc một cái gì đó đa dạng. Tôi đang thiếu gì?

CHỈNH SỬA :

Tôi sẽ thêm một vài bình luận ở đây do câu trả lời của @wij, tôi sẽ cố gắng chính xác hơn.

Trong các trường hợp mà tôi quan tâm, thực sự có vẻ hoàn toàn hợp lý để xem xét rằng các khoản giữ sau đây;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

Trong trường hợp này, tôi có thể biết nên trông như thế nào theo tỷ lệ vì tôi sẽ đưa ra lựa chọn mô hình cho và . Sau đó tôi có đúng không khi nói rằng sau đó tôi cần chọn phân phối gia đình [giả sử gaussian] để bây giờ tôi có thể ước tính . Cảm giác như trong trường hợp này tôi đang cố gắng điều chỉnh một gaussian gần với không chuẩn hóa . Điều này có đúng không?pp(D|θ)p(θ)qKL(p(θ|D)||q)p(D|θ)p(θ)

Nếu vậy, có cảm giác như tôi đang giả định rằng hậu thế của tôi là phân phối bình thường và tôi chỉ cố gắng tìm các giá trị có khả năng cho phân phối này liên quan đến phân kỳ .KL

Câu trả lời:


7

Tôi có cảm giác rằng bạn coi là một đối tượng hoàn toàn xa lạ. Tôi không nghĩ đây là trường hợp. Đây có lẽ là những gì bạn đã bỏ lỡ.p

Giả sử chúng tôi quan sát (iid) và chúng tôi muốn suy ra trong đó chúng tôi giả sử rằng và cho được chỉ định bởi mô hình. Theo quy tắc của Bayes,Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

Quan sát đầu tiên là chúng ta biết một vài điều về phân phối sau . Nó được đưa ra như trên. Thông thường, chúng ta không biết bình thường hóa . Nếu khả năng rất phức tạp, thì cuối cùng chúng ta sẽ có một số phân phối phức tạp .p(x|Y)p(Y)p(y|x)p(x|Y)

Điều thứ hai làm cho nó có thể thực hiện suy luận đa dạng là có một ràng buộc về hình thức mà có thể thực hiện. Nếu không có bất kỳ ràng buộc nào, sẽ là thường không thể truy cập được. Thông thường, được cho là sống trong một tập hợp con được chọn của gia đình hàm mũ. Ví dụ: đây có thể là họ của các bản phân phối Gaussian được nhân tố hóa đầy đủ, ví dụ: . Nó chỉ ra rằng nếu đây là tập ràng buộc của bạn, thì mỗi thành phần của được đưa ra bởiqargminqKL(p||q)pqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

trong đóCông thức chính xác không quan trọng lắm. Điểm quan trọng là gần đúng có thể được tìm thấy bằng cách dựa vào kiến ​​thức về thực và giả định về hình thức mà gần đúng nên thực hiện.p(x,Y)=p(x)i=1np(yi|x).qpq

Cập nhật

Sau đây là để trả lời phần cập nhật trong câu hỏi. Tôi chỉ nhận ra rằng tôi đã suy nghĩ về . Tôi sẽ luôn sử dụng cho số lượng thực và cho một số gần đúng. Trong suy luận đa dạng hoặc Bay đa dạng, được cho bởiKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

Với tập ràng buộc như trên, giải pháp là giải pháp được đưa ra trước đó. Bây giờ nếu bạn đang nghĩ vềQ

q=argminqQKL(p(x|Y)||q),

for được định nghĩa là tập con của họ hàm mũ, sau đó suy luận này được gọi là lan truyền kỳ vọng (EP). Giải pháp cho trong trường hợp này là giải pháp sao cho các khoảnh khắc của nó khớp với .Qqp(x|Y)

Dù bằng cách nào, bạn đã đúng khi nói rằng về cơ bản, bạn cố gắng xấp xỉ phân phối hậu nghiệm thực sự theo nghĩa KL bằng một phân phối bị ràng buộc để có một số hình thức.q


Tôi không thể tranh luận với điều này. Tôi nghĩ rằng hầu hết các giải thích bao gồm cả bóng của tôi về điều này.
Peadar Coyle
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.