Tại sao người ta nên sử dụng EM so với nói, Gradient Descent với MLE?


10

Về mặt toán học, người ta thường thấy rằng các biểu thức và thuật toán cho Tối đa hóa kỳ vọng (EM) thường đơn giản hơn cho các mô hình hỗn hợp, nhưng dường như mọi thứ (nếu không phải là tất cả) có thể được giải quyết bằng EM cũng có thể được giải quyết bằng MLE (bằng cách nói, phương pháp Newton-Raphson, cho các biểu thức không được đóng).

Tuy nhiên, trong văn học, có vẻ như nhiều người ủng hộ EM hơn các phương pháp khác (bao gồm giảm thiểu LL bằng cách nói, giảm dần độ dốc); Có phải vì sự đơn giản của nó trong các mô hình? Hay là vì những lý do khác?

Câu trả lời:


15

Tôi nghĩ rằng có một số dây chéo ở đây. MLE, như được đề cập trong tài liệu thống kê, là Ước tính khả năng tối đa. Đây là một công cụ ước tính . Thuật toán EM, như tên của nó, là một thuật toán thường được sử dụng để tính toán MLE. Đây là những quả táo và cam.

Khi MLE không ở dạng đóng, thuật toán thường được sử dụng để tìm kiếm này là thuật toán Newton-Raphson, đây có thể là điều bạn đang đề cập khi bạn nêu "cũng có thể được giải quyết bằng MLE". Trong nhiều vấn đề, thuật toán này hoạt động rất tốt; đối với các vấn đề "vani", thường rất khó để đánh bại.

Tuy nhiên, có rất nhiều vấn đề khi nó thất bại, chẳng hạn như mô hình hỗn hợp. Kinh nghiệm của tôi với các vấn đề tính toán khác nhau là trong khi thuật toán EM không phải luôn luôn là lựa chọn nhanh nhất, nó thường dễ nhất vì nhiều lý do. Nhiều lần với các mô hình mới, thuật toán đầu tiên được sử dụng để tìm MLE sẽ là thuật toán EM. Sau đó, vài năm sau, các nhà nghiên cứu có thể thấy rằng một thuật toán phức tạp hơn đáng kể nhanh hơn đáng kể. Nhưng các thuật toán này không phải là trival.

Ngoài ra, tôi suy đoán rằng phần lớn sự phổ biến của thuật toán EM là hương vị thống kê của nó, giúp các nhà thống kê cảm thấy khác biệt với các nhà phân tích số.


3
"... giúp các nhà thống kê cảm thấy khác biệt với các nhà phân tích số" --- Tôi chắc chắn sẽ lưu dòng này để sử dụng sau.
Guillermo Angeris

Ngoài ra (tôi vừa cập nhật câu hỏi, vì đó là mục đích ban đầu của tôi cũng bao gồm điều này), nhưng tại sao chúng ta nên sử dụng EM thay vì thuật toán như Gradient Descent? Sở thích của người này là gì? Tốc độ hội tụ, có lẽ?
Guillermo Angeris

1
Trong công việc tôi đã thực hiện, ưu điểm lớn nhất của thuật toán EM là thực tế là các giá trị tham số được đề xuất luôn hợp lệ: tức là khối lượng xác suất nằm trong khoảng [0,1] tổng bằng 1, không nhất thiết phải là trường hợp cho xuống dốc. Một lợi thế khác là bạn không cần phải tính toán khả năng đảm bảo nó đã tăng lên ở mỗi bước. Đây là một vấn đề lớn nếu bản cập nhật có thể được tính toán nhanh chóng, nhưng khả năng là không thể.
Vách đá AB

3
Một khía cạnh rất hay khác của thuật toán EM: có xu hướng ổn định hơn về mặt số so với các phương thức dựa trên độ dốc. Nghiên cứu của tôi bắt đầu với các thuật toán EM và tôi đã mất 4 năm để nhận ra sự mất ổn định số khó chịu như thế nào (tức là khi tôi bắt đầu sử dụng thuật toán không phải EM).
Vách đá AB

hấp dẫn. Tôi đoán câu hỏi này vừa xuất hiện trở lại với tôi, nhưng còn việc làm một cái gì đó tương tự như tối ưu hóa lồi (trên các gradient phụ) về cơ bản bạn thực hiện giảm độ dốc và sau đó chỉ chiếu vào bộ khả thi? Ý tôi là, nó chắc chắn nghe khó hơn EM rất nhiều, nhưng một số nhược điểm khác sẽ là gì?
Guillermo Angeris
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.