Phương pháp MLE có thể được áp dụng trong trường hợp ai đó biết dạng chức năng cơ bản của pdf (ví dụ: Gaussian, hoặc log-normal, hoặc lũy thừa, hoặc bất cứ điều gì), nhưng không phải là các tham số cơ bản; ví dụ, họ không biết giá trị của và σ trong pdf: f ( x | μ , σ ) = 1μσ hoặc bất kỳ loại pdf nào khác mà họ đang giả định. Công việc của phương pháp MLE là chọn các giá trị tốt nhất (nghĩa là hợp lý nhất) cho các tham số chưa biết, được đưa ra các phép đo dữ liệu cụ thểx1,x2,x3,. . . mà thực sự đã được quan sát. Vì vậy, để trả lời câu hỏi đầu tiên của bạn, vâng, bạn luôn có quyền hỏi ai đó theomẫu nào
f(x|μ,σ)=12πσ2−−−−√exp[−(x−μ)22σ2]
x1,x2,x3,... pdf mà họ đang giả định để ước tính khả năng tối đa của họ; thực vậy, các giá trị tham số ước tính mà chúng cho bạn biết thậm chí không có ý nghĩa trừ khi chúng lần đầu tiên giao tiếp bối cảnh đó.
Thuật toán EM, như tôi đã thấy nó được áp dụng trong quá khứ, là một loại thuật toán meta, trong đó một số siêu dữ liệu bị thiếu và bạn cũng phải ước tính điều đó. Vì vậy, ví dụ, có lẽ tôi có một pdf mà là một hỗn hợp của nhiều Gaussian, ví dụ: Bề ngoài, ngoại trừ việc thêm tham số biên độAk, điều này trông rất giống với vấn đề trước đó, nhưng nếu tôi nói với bạn rằng chúng ta thậm chí không biết giá trị củaN(tức là số của các chế độ trong hỗn hợp Gaussian) và chúng tôi muốn ước tính rằng từ các phép đo dữ liệux1,x2,x3,. . .
f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=∑k=1NAk2πσ2k−−−−√exp[−(x−μk)22σ2k]
AkNx1,x2,x3,...quá?
Trong trường hợp này, bạn có một vấn đề, bởi vì mỗi giá trị có thể có của (đây là phần "meta" mà tôi đã ám chỉ ở trên) thực sự tạo ra một mô hình khác nhau, theo một nghĩa nào đó. Nếu N = 1 , sau đó bạn có một mô hình với ba thông số ( A 1 , μ 1 , σ 1 ) trong khi nếu N = 2 , sau đó bạn có một mô hình với sáu thông số ( A 1 , A 2 , L 1 , μ 2 , σ 1 , σ 2 ). Các giá trị phù hợp nhất mà bạn có được (NN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2 , μ 1 , σ 1 ) trong N = 1 mô hình có thể không trực tiếp được so sánh với các giá trị phù hợp nhất mà bạn có được đối với những thông số tương tự trong N = 2 mô hình, bởi vì họ là những mô hình khác nhau với một số khác nhaubậc tự doA1μ1σ1N=1N=2 .
Vai trò của thuật toán EM là cung cấp một cơ chế để thực hiện các loại so sánh đó (thường bằng cách áp dụng "hình phạt phức tạp" ưu tiên các giá trị nhỏ hơn của ) để chúng ta có thể chọn giá trị tổng thể tốt nhất cho NNN .
Vì vậy, để trả lời câu hỏi ban đầu của bạn, thuật toán EM yêu cầu một đặc điểm kỹ thuật ít chính xác hơn về hình thức của pdf; người ta có thể nói rằng nó xem xét một loạt các tùy chọn thay thế (ví dụ: tùy chọn trong đó , N = 2 , NN=1N=2N=3