Sự khác biệt giữa EM và Gradient Ascent là gì?


28

Sự khác biệt giữa các thuật toán EM (Tối đa hóa kỳ vọng) và Gradient Ascent (hoặc gốc) là gì? Có bất kỳ điều kiện theo đó họ là tương đương?

Câu trả lời:


21

Từ:

Xu L và Jordan MI (1996). Trên các thuộc tính hội tụ của thuật toán EM cho các hỗn hợp Gaussian . Tính toán thần kinh 2: 129-151.

Trừu tượng:

Chúng tôi chỉ ra rằng bước EM trong không gian tham số được lấy từ gradient thông qua ma trận chiếu P và chúng tôi cung cấp một biểu thức rõ ràng cho ma trận.

Trang 2

Cụ thể, chúng tôi chỉ ra rằng bước EM có thể thu được bằng cách nhân trước độ dốc bằng ma trận từ chối dương. Chúng tôi cung cấp một biểu thức rõ ràng cho ma trận ...

Trang 3

Đó là, thuật toán EM có thể được xem như là một thuật toán tăng độ dốc thay đổi theo hệ mét ...

Đây là, bài báo cung cấp các phép biến đổi rõ ràng của thuật toán EM thành độ dốc, Newton, quasi-Newton.

Từ wikipedia

Có các phương pháp khác để tìm ước tính khả năng tối đa, chẳng hạn như giảm độ dốc, độ dốc liên hợp hoặc các biến thể của phương pháp Newton Gauss. Không giống như EM, các phương pháp như vậy thường yêu cầu đánh giá các đạo hàm thứ nhất và / hoặc thứ hai của hàm khả năng.


5
Câu trả lời này dường như gợi ý rằng EM và độ dốc gốc về cơ bản là cùng một thuật toán, với các phép biến đổi có sẵn để chuyển từ thuật toán này sang thuật toán khác. Điều này chắc chắn là không đúng nói chung, và phụ thuộc mạnh mẽ vào mô hình thế hệ được xem xét. Bài viết được trích dẫn chỉ đưa ra kết luận cho các mô hình hỗn hợp Gaussian (là các mô hình thế hệ tương đối đơn giản), và đúng như vậy. Theo kinh nghiệm (hạn chế) của tôi, khi mô hình có tính phi tuyến tính cao và vai trò của các biến tiềm ẩn là quan trọng, EM là cách duy nhất để rút ra các quy tắc cập nhật hợp lý.
màu xanh

9

Không, chúng không tương đương. Đặc biệt, hội tụ EM chậm hơn nhiều.

Nếu bạn quan tâm đến quan điểm tối ưu hóa trên EM, trong bài báo này bạn sẽ thấy thuật toán EM là trường hợp đặc biệt của lớp thuật toán rộng hơn (thuật toán điểm gần).


2
Hoặc cho một loại ý tưởng tương tự, Hinton và Neal (1998)
liên hợp

2
"Sự hội tụ EM chậm hơn nhiều"; Điều này không được xác định rõ, và chắc chắn là không đúng. Thuật toán EM là một lớp toàn bộ các thuật toán. Đối với nhiều vấn đề, một thuật toán EM chắc chắn là các nhà nước của nghệ thuật.
Vách đá AB

@CliffAB xin đừng ngần ngại giải thích về vấn đề này, tôi rất thích đọc các lập luận của bạn - khi tôi đọc câu trả lời này từ 4 năm, tôi nhận ra rằng tôi sẽ không trả lời điều này hôm nay. Kể từ đó, tôi phát hiện ra rằng trong nhiều trường hợp, EM là độ dốc tăng dần với tham số 'tốc độ học tập' tùy thuộc vào điểm hiện tại ... (Tôi có thể chỉnh sửa câu trả lời này trong một thời gian để chỉ ra kết quả sắp xếp)
Elvis

"Sự hội tụ chậm hơn" có thể được định nghĩa theo thuật ngữ tốc độ hội tụ. Tốc độ hội tụ của độ dốc tăng dần sẽ phụ thuộc vào 'tốc độ học tập', không dễ lựa chọn, khiến cho việc tăng độ dốc trở nên khó khăn trong nhiều trường hợp. Tuy nhiên tôi vẫn có một cảm giác đặc biệt là trong khi EM có thể trong một số trường hợp là thuật toán khả thi duy nhất (các dẫn xuất của khả năng hoặc khả năng bản thân khó tính toán), thì tốc độ hội tụ của nó rất kém, so với phương pháp giống như Newton.
Elvis

"Thuật toán EM thực sự là một lớp toàn bộ các thuật toán; một trong đó hàm mục tiêu ban đầu khó tối ưu hóa, nhưng nếu biết một số biến khác, giải pháp sẽ dễ dàng hơn nhiều (thường ở dạng đóng). Các phác thảo cơ bản là điền vào biến có điều kiện dự kiến ​​trên các giá trị hiện tại của các tham số khác, sau đó cập nhật các tham số dựa trên giá trị dự kiến ​​của biến. Nó đã được chỉ ra rằng thuật toán hội tụ nhanh như thế nào phụ thuộc vào mức độ thông tin của dữ liệu được liệt kê; dữ liệu bị thiếu càng nhiều "thông tin" thì tốc độ hội tụ càng chậm.
Vách đá AB
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.