Tại sao thuật toán Tối đa hóa kỳ vọng được đảm bảo hội tụ đến mức tối ưu cục bộ?


24

Tôi đã đọc một vài lời giải thích về thuật toán EM (ví dụ từ Nhận dạng mẫu và Học máy của Giám mục và từ Khóa học đầu tiên của Roger và Gerolami về Học máy). Đạo hàm của EM là ok, tôi hiểu nó. Tôi cũng hiểu lý do tại sao thuật toán bao phủ một thứ gì đó: ở mỗi bước chúng tôi cải thiện kết quả và khả năng bị giới hạn bởi 1.0, vì vậy bằng cách sử dụng một thực tế đơn giản (nếu một hàm tăng và bị chặn thì nó hội tụ) chúng tôi biết rằng thuật toán hội tụ một số giải pháp.

Tuy nhiên, làm thế nào để chúng ta biết nó là tối thiểu địa phương? Ở mỗi bước, chúng tôi chỉ xem xét một tọa độ (biến tiềm ẩn hoặc tham số), vì vậy chúng tôi có thể bỏ lỡ điều gì đó, như là mức tối thiểu cục bộ yêu cầu di chuyển bằng cả hai tọa độ cùng một lúc.

Điều này tôi tin là một vấn đề tương tự như của các thuật toán leo đồi nói chung, mà EM là một ví dụ. Vì vậy, đối với thuật toán leo đồi nói chung, chúng ta có vấn đề này cho hàm f (x, y) = x * y. Nếu chúng ta bắt đầu từ (0, 0) điểm, thì chỉ bằng cách xem xét cả hai hướng cùng một lúc chúng ta có thể di chuyển lên từ giá trị 0.


3
Khả năng chỉ giới hạn cho phương sai cố định. Đó là, trong tình huống nhị thức, phương sai là ; hoặc trong tình huống Gaussian, nếu phương sai được giả định đã biết. Nếu phương sai không xác định và phải được ước tính, khả năng không bị giới hạn. Ngoài ra, trong thuật toán EM, có một sự tách biệt chung giữa các tham số và thiếu, ít nhất là đối với các nhà thống kê thường xuyên, nhưng các bề mặt thực sự có thể có yên. p(1p)
StasK

@Stask Tôi không chắc chắn rằng khả năng nói chung bị giới hạn ngay cả với phương sai cố định. Bạn đang giới hạn trong một số gia đình cụ thể?
Glen_b -Reinstate Monica

Câu trả lời:


27

EM không được đảm bảo để hội tụ đến mức tối thiểu tại địa phương. Nó chỉ được đảm bảo để hội tụ đến một điểm có độ dốc bằng 0 đối với các tham số. Vì vậy, nó thực sự có thể bị mắc kẹt tại các điểm yên ngựa.


1
Ví dụ, xem trang 20 và 38 tại đây , trang. 85 ở đây - thử "điểm yên ngựa" trong trình đọc Amazon.
StasK

13

Trước hết, có thể là EM hội tụ tới một phút địa phương , một tối đa địa phương , hoặc một điểm yên ngựa của hàm likelihood. Chính xác hơn, như Tom Minka đã chỉ ra, EM được đảm bảo hội tụ đến một điểm có độ dốc bằng không .

Tôi có thể nghĩ ra hai cách để thấy điều này; góc nhìn thứ nhất là trực giác thuần túy, và góc nhìn thứ hai là bản phác thảo của một bằng chứng chính thức. Đầu tiên, tôi sẽ, rất ngắn gọn, giải thích cách EM hoạt động:

tbt(θ)L(θ)θt=argmaxθbt(θ)

Tối đa hóa kỳ vọng khi tăng dần độ dốc

Trong mỗi lần lặp , EM yêu cầu bị ràng buộc chạm vào hàm khả năng tại giải pháp của lần lặp trước đó, ví dụ , ngụ ý độ dốc của chúng cũng giống nhau; đó là . Vì vậy, EM ít nhất cũng tốt như tăng dần độ dốc vì ít nhất cũng tốt như . Nói cách khác:b t L θ t - 1 g = b t ( θ t - 1 ) = L ( θ t - 1 ) θ t θ t - 1 + η gtbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

nếu EM hội tụ đến thì là một điểm hội tụ cho độ dốc tăng dần và EM thỏa mãn bất kỳ thuộc tính nào được chia sẻ giữa các giải pháp tăng độ dốc (bao gồm giá trị độ dốc bằng 0).θ *θθ

Phác thảo một bằng chứng chính thức

Người ta có thể chỉ ra rằng khoảng cách giữa giới hạn và hàm khả năng hội tụ về không; đó là Người ta có thể chứng minh rằng độ dốc của giới hạn cũng hội tụ đến độ dốc của hàm khả năng; đó là: Vì và và các giới hạn được sử dụng trong EM là khác nhau và , chúng tôi có và do đó, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)lim t L ( θ t ) = 0bt(θt)=0limtL(θt)=0
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.