Tại sao tối đa hóa kỳ vọng là quan trọng cho các mô hình hỗn hợp?


15

Có nhiều tài liệu nhấn mạnh phương pháp Tối đa hóa kỳ vọng trên các mô hình hỗn hợp (Hỗn hợp của Gaussian, Mô hình Markov ẩn, v.v.).

Tại sao EM lại quan trọng? EM chỉ là một cách để tối ưu hóa và không được sử dụng rộng rãi như phương pháp dựa trên độ dốc (phương pháp gradient hay newton's / quasi-newton) hoặc phương pháp không gradient khác được thảo luận TẠI ĐÂY . Ngoài ra, EM vẫn có vấn đề cực tiểu cục bộ.

Có phải vì quá trình này là trực quan và có thể dễ dàng biến thành mã? Hay những lý do khác?

Câu trả lời:


14

Về nguyên tắc, cả EM và các phương pháp tối ưu hóa tiêu chuẩn đều có thể hoạt động để phân phối hỗn hợp phù hợp. Giống như EM, bộ giải tối ưu hóa lồi sẽ hội tụ đến mức tối ưu cục bộ. Nhưng, một loạt các thuật toán tối ưu hóa tồn tại để tìm kiếm các giải pháp tốt hơn với sự hiện diện của nhiều tối ưu cục bộ. Theo như tôi biết, thuật toán có tốc độ hội tụ tốt nhất sẽ phụ thuộc vào vấn đề.

Một lợi ích của EM là nó tự nhiên tạo ra các tham số hợp lệ cho phân phối hỗn hợp trên mỗi lần lặp. Ngược lại, các thuật toán tối ưu hóa tiêu chuẩn sẽ cần các ràng buộc được áp đặt. Ví dụ: giả sử bạn đang lắp mô hình hỗn hợp Gaussian. Một cách tiếp cận lập trình phi tuyến chuẩn sẽ yêu cầu các ma trận hiệp phương sai ràng buộc là bán chính xác dương và ràng buộc các trọng số thành phần hỗn hợp là không âm và tổng thành một.

Để đạt được hiệu suất tốt đối với các vấn đề chiều cao, một bộ giải lập trình phi tuyến thường cần khai thác gradient. Vì vậy, bạn phải lấy ra độ dốc hoặc tính toán nó với sự khác biệt tự động. Các lớp cũng cần thiết cho các hàm ràng buộc nếu chúng không có dạng chuẩn. Phương pháp của Newton và các phương pháp liên quan (ví dụ: phương pháp vùng tin cậy) cũng cần Hessian. Phương pháp khác biệt hữu hạn hoặc phương pháp không có đạo hàm có thể được sử dụng nếu độ dốc không khả dụng, nhưng hiệu suất có xu hướng mở rộng kém khi số lượng tham số tăng. Ngược lại, EM không yêu cầu độ dốc.

EM là khái niệm trực quan, đó là một đức tính tuyệt vời. Điều này thường giữ cho phương pháp tối ưu hóa tiêu chuẩn là tốt. Có nhiều chi tiết thực hiện, nhưng khái niệm tổng thể là đơn giản. Người ta thường có thể sử dụng các bộ giải tối ưu hóa tiêu chuẩn để trừu tượng hóa các chi tiết này dưới mui xe. Trong những trường hợp này, người dùng chỉ cần cung cấp hàm mục tiêu, các ràng buộc và độ dốc và có đủ kiến ​​thức làm việc để chọn một bộ giải phù hợp với vấn đề. Nhưng, kiến ​​thức chuyên ngành chắc chắn là cần thiết nếu nó đạt đến điểm mà người dùng phải suy nghĩ hoặc thực hiện các chi tiết cấp thấp của thuật toán tối ưu hóa.

Một lợi ích khác của thuật toán EM là nó có thể được sử dụng trong trường hợp thiếu một số giá trị dữ liệu.

Cũng được quan tâm (bao gồm cả các ý kiến):


Các ràng buộc trong trường hợp mô hình hỗn hợp thường có thể được thi hành bằng cách xác định lại tham số. Ví dụ có thể được thực hiện thông qua việc tối ưu hóa trên q iRp i = exp ( q i )ipi=1qiR . pi=exp(qi)jexp(qj)
bayerj

1
Vâng, điều đó chắc chắn đúng. Đây sẽ là một hình thức áp đặt các ràng buộc theo quan điểm của người dùng (người phải mã hóa nó), nhưng không phải là phối cảnh của người giải quyết (người không còn trực tiếp nhận được các ràng buộc tương ứng). Một thủ thuật: a hiệp phương sai ma trận có thể được biểu diễn bằng ma trận không bị giới hạn U , nơi C = U T U . Nhưng, điều này làm tăng cả tính toán và số lượng tham số so với việc sử dụng C trực tiếp và ràng buộc nó là một ma trận đối xứng nửa cực dương. CUC=UTUC
dùng20160

Vâng, quan điểm tốt để chuyển nó từ người giải quyết sang người dùng. Bạn cũng có thể chỉ xem xét tam giác . Bằng cách đó, bạn không chỉ định hệ thống vì hầu hết các tham số là 0 . U0
bayerj

Phải, phải, phân rã cholesky. Tốt hơn nhiều.
dùng20160

1
+1 câu trả lời tuyệt vời! bạn có thể giải thích thêm về "nó tự nhiên tạo ra các tham số hợp lệ cho phân phối hỗn hợp trên mỗi lần lặp" không? Đối với các phương thức khác, chúng ta vẫn có các giá trị biến quyết định cho mỗi lần lặp, phải không?
Haitao Du

2

Tôi nghĩ rằng câu trả lời của user20160 cung cấp một lời giải thích rất tốt, lý do quan trọng nhất khiến các phương pháp dựa trên độ dốc không phù hợp ở đây là ràng buộc cho ma trận hiệp phương sai là nửa cực dương và các hệ số hỗn hợp là không âm và tổng hợp thành một.

Chỉ muốn chỉ ra rằng nếu chúng ta hạn chế các ma trận hiệp phương sai thành đường chéo, thì hai ràng buộc này có thể được thể hiện dễ dàng.

Σ=[σ12σN2]
ϕk=epk/Kepi

Hơn nữa, điều này cho phép chúng tôi tối ưu hóa trực tiếp cho khả năng thực sự thay vì giới hạn dưới biến thiên (ELBO), do đó loại bỏ sự cần thiết của các biến tiềm ẩn.

Tuy nhiên, ngay cả trong những trường hợp như vậy, EM thường trở thành một thuật toán tốt hơn so với độ dốc tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.