Làm rõ tối đa hóa kỳ vọng


11

Tôi tìm thấy hướng dẫn rất hữu ích liên quan đến thuật toán EM .

Ví dụ và hình ảnh từ hướng dẫn chỉ đơn giản là tuyệt vời.

nhập mô tả hình ảnh ở đây

Câu hỏi liên quan về tính toán xác suất làm thế nào để tối đa hóa kỳ vọng hoạt động?

Tôi có một câu hỏi khác liên quan đến cách kết nối lý thuyết được mô tả trong hướng dẫn với ví dụ.

Trong bước E, EM chọn một hàm có giới hạn thấp hơn ở mọi nơi và .gtlogP(x;Θ)gt(Θ^(t))=logP(x;Θ^(t))

Vì vậy, những gì trong ví dụ của chúng tôi, và có vẻ như nó sẽ khác nhau cho mỗi lần lặp.gt

Ngoài ra, ví dụ và sau đó áp dụng chúng cho dữ liệu chúng tôi nhận được và . Đó là đối với tôi trông phản trực giác. Chúng tôi đã có một số giả định trước đó, áp dụng nó vào dữ liệu và nhận các giả định mới, vì vậy dữ liệu bằng cách nào đó đã thay đổi các giả định. Tôi không hiểu tại sao không bằng .Θ^A(0)=0.6Θ^B(0)=0.5Θ^A(1)=0.71Θ^B(1)=0.58Θ^(0)Θ^(1)

Ngoài ra, nhiều câu hỏi xuất hiện khi bạn xem Bổ sung 1 cho hướng dẫn này. Ví dụ trong trường hợp của chúng ta là gì. Tôi không rõ tại sao bất đẳng thức chặt chẽ khiQ(z)Q(z)=P(z|x;Θ)

Cảm ơn bạn.

Câu trả lời:


1

Tôi thấy những lưu ý này rất hữu ích trong việc tìm ra những gì đang diễn ra trong tài liệu bổ sung.

Tôi sẽ trả lời những câu hỏi này một chút ngoài trật tự cho sự liên tục.


Đầu tiên: tại sao vậy

θ(0)θ(1)

Lý do là hàm của chúng tôi được chọn sao cho nó được đảm bảo nhỏ hơn hoặc bằng , với 2 là sự cố tại điểm đoán ban đầu của chúng tôi . Nếu các giả định trước của chúng tôi là dự đoán ban đầu hoàn hảo thì bạn sẽ đúng và sẽ không thay đổi. Nhưng chúng ta có thể tìm thấy các giá trị cao hơn trong hàm được tạo , do đó, lần lặp tiếp theo của tham số cho được đảm bảo có nhiều khả năng hơn so với ban đầu.g0log(P(x;θ))θ(0)θ(1)g0θ


Thứ hai: tại sao sự bất bình đẳng chặt chẽ khi

Q(z)=P(z|x;θ)

Có một gợi ý trong phần chú thích về điều này, nơi nó nói,

đẳng thức giữ khi và chỉ khi biến ngẫu nhiên không đổi với xác suất 1 (nghĩa là )y=E[y]

ngụ ý rằng sự lựa chọn của chúng ta làm cho không đổi. Để thấy điều này, hãy xem xét rằng:QP(x,z;θ)Q(z)

P(x,z;θ)=P(z|x;θ)P(x;θ)

mà làm cho phân số của chúng tôi

P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)

Vậy là gì và nó có phải là hằng số không? Chà, xem xét rằng chúng tôi đang tính các khoản tiền trên mà thuật ngữ này là độc lập (không đổi). Hãy biểu diễn nó là và phương trình đó trở thành:P(x;θ)zC

log(zQ(z)C)zQ(z)log(C)

từ đây chúng ta có thể thấy khá nhanh rằng hai bên bằng nhau, vì kỳ vọng của một hằng sẽ là hằng số đó bất kể trọng số ( )Q(z)


Cuối cùng: là gìgt

Câu trả lời được đưa ra trong các ghi chú tôi liên kết hơi khác với câu trả lời trong các ghi chú bổ sung, nhưng chúng chỉ khác nhau bởi một hằng số và chúng tôi đang tối đa hóa nó để nó không phải là hậu quả. Một trong các ghi chú (có đạo hàm) là:

gt(θ)=log(P(x|θ(t)))+zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))

Công thức phức tạp này không được nói đến trong các ghi chú bổ sung, có lẽ bởi vì rất nhiều thuật ngữ này sẽ là các hằng số bị loại bỏ khi chúng ta tối đa hóa. Nếu bạn quan tâm đến cách chúng tôi đến đây ở nơi đầu tiên, tôi khuyên bạn nên ghi chú những liên kết mà tôi đã liên kết.

Sử dụng một đối số tương tự với đối số được đưa ra trong câu trả lời cho câu hỏi thứ hai, thuật ngữ trong nhật ký bằng 1 cho để thuật ngữ tổng hợp biến mất và như mong đợi.gt(θ(t))gt(θ(t))=logP(x|θ(t))

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.