Tại sao có một E trong thuật toán tên EM?


8

Tôi hiểu bước E xảy ra trong thuật toán (như được giải thích trong phần toán học bên dưới). Trong suy nghĩ của tôi, sự khéo léo chính của thuật toán là việc sử dụng bất đẳng thức của Jensen để tạo ra một giới hạn thấp hơn cho khả năng đăng nhập. Theo nghĩa đó, việc Expectationthực hiện đơn giản được thực hiện để điều chỉnh khả năng nhật ký phù hợp với bất đẳng thức của Jensen (tức là cho hàm lõm.)E(f(x))<f(E(x))

Có một lý do tại sao bước E được gọi là? Có bất kỳ ý nghĩa nào đối với điều mà chúng ta đang mong đợi (ví dụ như không? Tôi cảm thấy như mình đang thiếu một số trực giác đằng sau lý do tại sao Kỳ vọng lại rất quan trọng, thay vì chỉ đơn giản là sự cố sử dụng bất đẳng thức của Jensen.p(xi,zi|θ)

EDIT: Một hướng dẫn nói:

Tên 'Bước E' xuất phát từ thực tế là người ta thường không cần phải hình thành phân phối xác suất trên các lần hoàn thành một cách rõ ràng, mà chỉ cần tính toán 'số liệu thống kê đầy đủ' dự kiến ​​cho các lần hoàn thành này.

Điều đó có nghĩa là "người ta thường không cần phải hình thành phân phối xác suất trên các lần hoàn thành một cách rõ ràng"? Phân phối xác suất đó sẽ như thế nào?


Phụ lục: Bước E trong thuật toán EM

ll=ilogp(xi;θ)definition of log likelihood=ilogzip(xi,zi;θ)augment with latent variables z=ilogziQi(zi)p(xi,zi;θ)Qi(zi)Qi is a distribution for zi=ilogEzi[p(xi,zi;θ)Qi(zi)]taking expectations - hence the E in EMEzi[logp(xi,zi;θ)Qi(zi)]Using Jensen's rule for log which is concaveiziQi(zi)logp(xi,zi;θ)Qi(zi)Q function to maximize

2
Tôi không rõ bạn đang hỏi gì, nhưng tôi luôn cho rằng sự liên quan đằng sau việc đặt tên E-step là ở một khía cạnh nào đó, bạn đang "điền" hoặc "bỏ qua" bị thiếu bằng cách kỳ vọng. Cấp, đây không chính xác là những gì đang xảy ra bởi vì bạn đang dùng không giống với việc cắm một cái gì đó cho thiếu các giá trị , nhưng hoạt động thường kết thúc một việc như thế. Nếu chúng ta đang thực hiện tăng dữ liệu - tương tự như EM ở nhiều khía cạnh. zEθ[logp(x,Z;θ)X=x]Z
anh chàng

Vâng, đây là loại thảo luận tôi muốn có. Vì vậy, khi bạn nói không hợp lý z bằng cách kỳ vọng ". Kỳ vọng về điều gì? Ngoài ra, bạn có nghĩa là thay vì ?EzEθ
Heisenberg

Sự dạy dỗ của tôi luôn là lập chỉ mục với tham số lập chỉ mục đo lường xác suất mà kỳ vọng đang được thực hiện đối với. Trong CS họ làm điều đó như bạn đang đề xuất. Tôi đang tích hợp , điều chỉnh trên dựa trên số đo được lập chỉ mục bởi . EZXθ
anh chàng

Ví dụ, khi lắp các hỗn hợp Gaussian, bước E đã loại bỏ các chỉ số lớp bị thiếu. Nhưng nó làm như vậy một cách mờ nhạt bằng cách tính toán trách nhiệm cho mỗi quan sát.
anh chàng

Câu trả lời:


11

Kỳ vọng là trung tâm của thuật toán EM. Để bắt đầu, khả năng được liên kết với dữ liệu được biểu thị dưới dạng kỳ vọng trong đó kỳ vọng nằm ở phân phối biên của vectơ tiềm ẩn .(x1,,xn)

p(x1,,xn;θ)=Znp(x1,,xn,z1,,zn;θ)dz=Znp(x1,,xn|z1,,zn,θ)p(z1,,zn;θ)dz=Eθ[p(x1,,xn|z1,,zn,θ)]
(z1,,zn)

Trực giác đằng sau EM cũng dựa trên một kỳ vọng. Vì không thể được tối ưu hóa trực tiếp, trong khi có thể nhưng phụ thuộc vào không quan sát được , ý tưởng là tối đa hóa thay vì khả năng đăng nhập hoàn chỉnh dự kiến ngoại trừ kỳ vọng này cũng phụ thuộc vào giá trị của , được chọn là , do đó, chức năng tối đa hóa (trong ) trong bước M: logp(x1,,xn;θ)logp(x1,,xn,z1,,zn;θ)zi

E[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
θθ0θ
Q(θ0,θ)=Eθ0[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
Sự bất bình đẳng của Jensen chỉ đến như một sự biện minh cho sự gia tăng khả năng quan sát được ở mỗi bước M.

1
Cảm ơn đã giải thích. Vì phân phối sau của chúng tôi cho các vectơ tiềm ẩn thay đổi ở mỗi bước, nênEθ[p(x1,,xn,z,,z,θ)]p(x;θ)p(x;θ)zở bước đó
Heisenberg

xin lỗi tôi không hiểu câu hỏi: ở mỗi bước EM, giá trị của thay đổi và tăng lên. Điều này không có nghĩa là chức năng khả năng tự thay đổi. Eθ[p(x1,,xn|z1,,zn,θ)]
Tây An

Không ? Nếu RHS thay đổi theo niềm tin sau của chúng ta về vectơ tiềm ẩn, LHS có thay đổi không? p(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]
Heisenberg

Danh tính này là trong câu trả lời của tôi. Cả hai bên có các giá trị khác nhau khi thay đổi. Tuy nhiên, trong phương trình này, không có khái niệm nào về niềm tin hậu thế vì (a) là cố định và (b) được coi là không đáng kể. θθzi
Tây An

1
Ở mỗi lần lặp , bước E sử dụng để tính tích phânDo đó, hàm mục tiêu để tối đa hóa các thay đổi ở mỗi lần lặp . Điều này không nói gì về khả năng mục tiêu ban đầu chỉ phụ thuộc vào một . tp(z|x,θt)
Q(θt,θ)=Eθt[logp(x1,,xn,z1,,zn;θ)|x1,,xn].
tp(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]θ
Tây An

1

Câu trả lời của Xi'an rất tốt, chỉ là một số phần mở rộng liên quan đến chỉnh sửa.

Tên 'Bước E' xuất phát từ thực tế là người ta thường không cần phải hình thành phân phối xác suất trên các lần hoàn thành một cách rõ ràng, mà chỉ cần tính toán 'số liệu thống kê đầy đủ' dự kiến ​​cho các lần hoàn thành này.

Vì giá trị của không được quan sát, chúng tôi ước tính phân phối cho mỗi điểm dữ liệu như dữ liệu không quan sát được. Hàm Q là tổng khả năng nhật ký dự kiến trênzqx(z)xcompletionsqx(z)

Q(θ)=xEqx[logp(x,z|θ)]

Các đề cập probability distribution over completionsnên tham khảo . Đối với một số phân phối (đặc biệt là họ theo cấp số nhân, vì khả năng là ở dạng nhật ký của nó), chúng ta chỉ phải biết dự kiến (thay vì khả năng dự kiến) để tính toán và tối đa hóa .p(x,z|θ)sufficient statisticsQ(θ)


Có phần giới thiệu rất hay trong Chương 19.2 của Mô hình đồ họa xác suất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.