Tại sao thuật toán tối đa hóa kỳ vọng được sử dụng?


22

Từ những gì tôi biết, thuật toán EM có thể được sử dụng để tìm khả năng tối đa khi đặt thành 0 các đạo hàm riêng đối với các tham số của khả năng đưa ra một bộ phương trình không thể giải quyết bằng phương pháp phân tích. Nhưng là thuật toán EM cần thiết thay vì sử dụng một số kỹ thuật số để cố gắng tìm tối đa khả năng liên quan đến các ràng buộc của bộ phương trình được đề cập.

Câu trả lời:


20

Câu hỏi là hợp pháp và tôi đã có sự nhầm lẫn tương tự khi lần đầu tiên học thuật toán EM.

Nói chung, thuật toán EM định nghĩa một quy trình lặp cho phép tối đa hóa hàm khả năng của một mô hình tham số trong trường hợp một số biến của mô hình là (hoặc được coi là) "tiềm ẩn" hoặc không xác định.

Về lý thuyết, với cùng một mục đích, bạn có thể sử dụng thuật toán thu nhỏ để tìm số lượng tối đa của hàm khả năng cho tất cả các tham số. Tuy nhiên, trong tình huống thực tế, việc giảm thiểu này sẽ là:

  1. chuyên sâu hơn nhiều về mặt tính toán
  2. kém mạnh mẽ

Một ứng dụng rất phổ biến của phương pháp EM là lắp mô hình hỗn hợp. Trong trường hợp này, xem xét biến chỉ định từng mẫu cho một trong các thành phần là biến "tiềm ẩn", vấn đề được đơn giản hóa rất nhiều.

Hãy nhìn vào một ví dụ. Chúng tôi có N mẫu được trích xuất từ ​​hỗn hợp 2 phân phối bình thường. Để tìm các tham số không có EM, chúng ta nên giảm thiểu:s={si}

-đăng nhậpL(x,θ)= =-đăng nhập[một1điểm kinh nghiệm((x-μ1)22σ12)+một2điểm kinh nghiệm((x-μ2)22σ22)]

Ngược lại, bằng cách sử dụng thuật toán EM, trước tiên chúng tôi "gán" từng mẫu cho một thành phần ( bước E ) và sau đó phù hợp (hoặc tối đa hóa khả năng ) của từng thành phần riêng biệt ( bước M ). Trong ví dụ này, M-bước đơn giản là một trung bình trọng để tìm σ k . Iterating qua hai bước là một cách đơn giản và mạnh mẽ hơn để giảm thiểu - log L ( x , θ ) .μkσk-đăng nhậpL(x,θ)


12

EM không cần thiết thay vì sử dụng một số kỹ thuật số vì EM cũng là một phương pháp số. Vì vậy, nó không phải là một thay thế cho Newton-Raphson. EM dành cho trường hợp cụ thể khi bạn thiếu các giá trị trong ma trận dữ liệu của mình. Hãy xem xét một mẫu trong đó có mật độ có điều kiện f X | Θ ( x | θ ) . Sau đó, loga của việc này là l ( θ ; X ) = l o g f X | ΘX= =(X1,...,Xn)fX|Θ(x|θ) Bây giờ giả sử rằng bạn không có bộ dữ liệu hoàn chỉnh sao cho X được tạo thành từ dữ liệu quan sát Y và các biến Z (hoặc tiềm ẩn) bị thiếu, sao cho X = ( Y , Z ) . Sau đó, loga cho các dữ liệu quan sát được là l o b s ( θ , Y ) = l o g f X | Θ ( Y , z | q ) ν z (

tôi(θ;X)= =tôiogfX|Θ(X|θ)
XYZX= =(Y,Z) Nói chung bạn không thể tính toán không thể thiếu này trực tiếp và bạn sẽ không có được một giải pháp đóng hình thức cho l o b s ( θ , Y ) . Đối với mục đích này, bạn sử dụng phương pháp EM. Có hai bước được lặp lại cho tôi lần. Trong này ( i + 1 ) t h bước đó là những bước mong đợi mà bạn tính toán Q ( θ | θ ( i ) ) = E θ ( i ) [ l ( θ
tôiobS(θ,Y)= =tôiogfX|Θ(Y,z|θ)νz(dz)
tôiobS(θ,Y)tôi(tôi+1)th trong đó θ ( i ) là ước tính của Θ trong bước i t h . Sau đó tính toán bước tối đa hóa trong đó bạn phát huy tối đa Q ( θ | θ ( i ) ) liên quan đến q và bộ θ ( i + 1 ) = m một x Q ( θ | θ i )
Q(θ|θ(tôi))= =Eθ(tôi)[tôi(θ;X|Y]
θ(tôi)ΘtôithQ(θ|θ(tôi))θθ(tôi+1)= =mmộtxQ(θ|θtôi). Sau đó, bạn lặp lại các bước này cho đến khi phương thức hội tụ đến một giá trị nào đó sẽ là ước tính của bạn.

Nếu bạn cần thêm thông tin về phương pháp, các thuộc tính, bằng chứng hoặc ứng dụng của nó chỉ cần xem qua bài viết Wiki tương ứng .


1
+1 ... Mặc dù vậy, EM không chỉ dành cho trường hợp giá trị bị thiếu.
Glen_b -Reinstate Monica

@Andy: Ngay cả khi xem xét trường hợp thiếu dữ liệu, tôi vẫn không hiểu tại sao sử dụng các phương pháp số chung để tìm một điểm mà các đạo hàm một phần bằng 0 không hoạt động.
dùng782220

Cảm ơn Glen, tôi chỉ biết nó trong bối cảnh thiếu các giá trị / biến tiềm ẩn. @ user782220: khi bạn không thể có giải pháp dạng đóng của đạo hàm khả năng ghi nhật ký, việc đặt đạo hàm bằng 0 sẽ không xác định tham số của bạn. Đây là lý do tại sao bạn sử dụng phương pháp số trong trường hợp này. Để biết giải thích và một ví dụ, hãy xem bài giảng ở đây: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy

1

EM được sử dụng vì thường không khả thi hoặc không thể tính trực tiếp các tham số của mô hình nhằm tối đa hóa xác suất của tập dữ liệu được đưa ra cho mô hình đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.