Tôi thấy những lưu ý này rất hữu ích trong việc tìm ra những gì đang diễn ra trong tài liệu bổ sung.
Tôi sẽ trả lời những câu hỏi này một chút ngoài trật tự cho sự liên tục.
Đầu tiên: tại sao vậy
θ(0)≠θ(1)
Lý do là hàm của chúng tôi được chọn sao cho nó được đảm bảo nhỏ hơn hoặc bằng , với 2 là sự cố tại điểm đoán ban đầu của chúng tôi . Nếu các giả định trước của chúng tôi là dự đoán ban đầu hoàn hảo thì bạn sẽ đúng và sẽ không thay đổi. Nhưng chúng ta có thể tìm thấy các giá trị cao hơn trong hàm được tạo , do đó, lần lặp tiếp theo của tham số cho được đảm bảo có nhiều khả năng hơn so với ban đầu.g0log(P(x;θ))θ(0)θ(1)g0θ
Thứ hai: tại sao sự bất bình đẳng chặt chẽ khi
Q(z)=P(z|x;θ)
Có một gợi ý trong phần chú thích về điều này, nơi nó nói,
đẳng thức giữ khi và chỉ khi biến ngẫu nhiên không đổi với xác suất 1 (nghĩa là )y=E[y]
ngụ ý rằng sự lựa chọn của chúng ta làm cho không đổi. Để thấy điều này, hãy xem xét rằng:QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
mà làm cho phân số của chúng tôi
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
Vậy là gì và nó có phải là hằng số không? Chà, xem xét rằng chúng tôi đang tính các khoản tiền trên mà thuật ngữ này là độc lập (không đổi). Hãy biểu diễn nó là và phương trình đó trở thành:P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
từ đây chúng ta có thể thấy khá nhanh rằng hai bên bằng nhau, vì kỳ vọng của một hằng sẽ là hằng số đó bất kể trọng số ( )Q(z)
Cuối cùng: là gìgt
Câu trả lời được đưa ra trong các ghi chú tôi liên kết hơi khác với câu trả lời trong các ghi chú bổ sung, nhưng chúng chỉ khác nhau bởi một hằng số và chúng tôi đang tối đa hóa nó để nó không phải là hậu quả. Một trong các ghi chú (có đạo hàm) là:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
Công thức phức tạp này không được nói đến trong các ghi chú bổ sung, có lẽ bởi vì rất nhiều thuật ngữ này sẽ là các hằng số bị loại bỏ khi chúng ta tối đa hóa. Nếu bạn quan tâm đến cách chúng tôi đến đây ở nơi đầu tiên, tôi khuyên bạn nên ghi chú những liên kết mà tôi đã liên kết.
Sử dụng một đối số tương tự với đối số được đưa ra trong câu trả lời cho câu hỏi thứ hai, thuật ngữ trong nhật ký bằng 1 cho để thuật ngữ tổng hợp biến mất và như mong đợi.gt(θ(t))gt(θ(t))=logP(x|θ(t))