Có phải MLE luôn có nghĩa là chúng ta biết PDF cơ bản của dữ liệu của mình và EM có nghĩa là chúng ta không?


12

Tôi có một số câu hỏi khái niệm đơn giản mà tôi muốn làm rõ về MLE (Ước tính khả năng tối đa), và nó có liên kết gì, nếu có, với EM (Tối đa hóa kỳ vọng).

Theo tôi hiểu, nếu ai đó nói "Chúng tôi đã sử dụng MLE", điều đó có tự động có nghĩa là họ có một mô hình rõ ràng về dữ liệu PDF của họ không? Dường như với tôi rằng câu trả lời cho điều này là có. Nói cách khác, nếu bất cứ lúc nào ai đó nói "MLE", thật công bằng khi hỏi họ rằng họ đang giả sử PDF gì. Điều này sẽ đúng?

Cuối cùng, trên EM, sự hiểu biết của tôi là trong EM, chúng tôi thực sự không biết - hoặc cần phải biết, tệp PDF cơ bản của dữ liệu của chúng tôi. Đây là sự hiểu biết của tôi.

Cảm ơn bạn.


1
Chữ "M" trong EM là viết tắt của Tối đa hóa ... khả năng. Để viết ra một khả năng chúng ta cần một bản pdf. EM là một cách để tìm MLE với sự hiện diện của 'không quan sát được' theo một nghĩa nào đó (được điền vào trong bước E). Đó là, để sử dụng EM bạn cần một mô hình rõ ràng.
Glen_b -Reinstate Monica 17/12/13

@Glen_b Cảm ơn Gleb_b. Vì vậy, 1) có đúng không khi nói rằng, trong EM, như trong MLE, chúng tôi luôn giả sử một số mô hình của dữ liệu PDF "? Có nghĩa là nếu ai đó nói" Chúng tôi đã sử dụng MLE / EM ", chúng tôi có thể hỏi một cách công bằng:" Cái gì Bạn đã giả sử PDF ". Đây có phải là một đánh giá đúng không? 2) Cuối cùng, liên quan đến EM, tôi tin rằng những điều không quan sát mà bạn đang đề cập đến là xác suất của các tệp PDF cụ thể tạo thành hỗn hợp, đúng không? Cảm ơn trước.
Creatron

Lưu ý rằng có các phương pháp khả năng tối đa không tham số. Tra cứu Kaplan-Meier.
soakley

Creatron - on (1) Lưu ý rằng EM là một thuật toán để tính toán các MLE mà nếu không thì khó xử lý. Trong cả hai trường hợp, tôi đều hỏi câu hỏi chung chung hơn một chút 'mô hình của bạn là gì?', Vì mô hình này có thể phức tạp hơn một số pdf đơn lẻ. Trên (2) Thuật toán EM không chỉ áp dụng cho hỗn hợp; nó chung chung hơn thế.
Glen_b -Reinstate Monica

Câu trả lời:


13

Phương pháp MLE có thể được áp dụng trong trường hợp ai đó biết dạng chức năng cơ bản của pdf (ví dụ: Gaussian, hoặc log-normal, hoặc lũy thừa, hoặc bất cứ điều gì), nhưng không phải là các tham số cơ bản; ví dụ, họ không biết giá trị của σ trong pdf: f ( x | μ , σ ) = 1μσ hoặc bất kỳ loại pdf nào khác mà họ đang giả định. Công việc của phương pháp MLE là chọn các giá trị tốt nhất (nghĩa là hợp lý nhất) cho các tham số chưa biết, được đưa ra các phép đo dữ liệu cụ thểx1,x2,x3,. . . mà thực sự đã được quan sát. Vì vậy, để trả lời câu hỏi đầu tiên của bạn, vâng, bạn luôn có quyền hỏi ai đó theomẫu nào

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,... pdf mà họ đang giả định để ước tính khả năng tối đa của họ; thực vậy, các giá trị tham số ước tính mà chúng cho bạn biết thậm chí không có ý nghĩa trừ khi chúng lần đầu tiên giao tiếp bối cảnh đó.

Thuật toán EM, như tôi đã thấy nó được áp dụng trong quá khứ, là một loại thuật toán meta, trong đó một số siêu dữ liệu bị thiếu và bạn cũng phải ước tính điều đó. Vì vậy, ví dụ, có lẽ tôi có một pdf mà là một hỗn hợp của nhiều Gaussian, ví dụ: Bề ngoài, ngoại trừ việc thêm tham số biên độAk, điều này trông rất giống với vấn đề trước đó, nhưng nếu tôi nói với bạn rằng chúng ta thậm chí không biết giá trị củaN(tức là số của các chế độ trong hỗn hợp Gaussian) và chúng tôi muốn ước tính rằng từ các phép đo dữ liệux1,x2,x3,. . .

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,...quá?

Trong trường hợp này, bạn có một vấn đề, bởi vì mỗi giá trị có thể có của (đây là phần "meta" mà tôi đã ám chỉ ở trên) thực sự tạo ra một mô hình khác nhau, theo một nghĩa nào đó. Nếu N = 1 , sau đó bạn có một mô hình với ba thông số ( A 1 , μ 1 , σ 1 ) trong khi nếu N = 2 , sau đó bạn có một mô hình với sáu thông số ( A 1 , A 2 , L 1 , μ 2 , σ 1 , σ 2 ). Các giá trị phù hợp nhất mà bạn có được (NN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2 , μ 1 , σ 1 ) trong N = 1 mô hình có thể không trực tiếp được so sánh với các giá trị phù hợp nhất mà bạn có được đối với những thông số tương tự trong N = 2 mô hình, bởi vì họ là những mô hình khác nhau với một số khác nhaubậc tự doA1μ1σ1N=1N=2 .

Vai trò của thuật toán EM là cung cấp một cơ chế để thực hiện các loại so sánh đó (thường bằng cách áp dụng "hình phạt phức tạp" ưu tiên các giá trị nhỏ hơn của ) để chúng ta có thể chọn giá trị tổng thể tốt nhất cho NNN .

Vì vậy, để trả lời câu hỏi ban đầu của bạn, thuật toán EM yêu cầu một đặc điểm kỹ thuật ít chính xác hơn về hình thức của pdf; người ta có thể nói rằng nó xem xét một loạt các tùy chọn thay thế (ví dụ: tùy chọn trong đó , N = 2 , NN=1N=2N=3


Ak=1N

N

Ak=1NNN=4N=5
stachyra 17/12/13

Cảm ơn bạn stachyra. Câu hỏi cuối cùng, hỗn hợp dữ liệu PDF (được đưa ra trong phương trình thứ hai của bạn được tạo thành từ một tổng số PDF có trọng số), KHÔNG giống như PDF chung của tất cả các mẫu dữ liệu của chúng tôi, là sản phẩm của các tệp PDF của họ, đúng ? (Giả sử các mẫu dữ liệu là IID).
Creatron 17/12/13

Không, hoàn toàn không - chúng là hai thứ hoàn toàn khác nhau. Bản pdf chung mà bạn đang mô tả nghe có vẻ giống với dạng hàm khả năng được sử dụng trong MLE. Một cuốn sách giáo khoa có thể hữu ích cho bạn ở đây. Đối với MLE, tôi thích chương 10 của "Phân tích lỗi và phân tích lỗi cho khoa học vật lý" của Philip R. Bevington và D. Keith Robinson, hoặc phần 6.1 của "Phân tích dữ liệu thống kê" của Glen Cowan. Để có một ví dụ cụ thể về cách thực hiện một loại thực thi EM cụ thể, tôi thích phần giải thích này , phần 2 đến 5.
stachyra 17/12/13

2

MLE đòi hỏi kiến ​​thức về ít nhất là các phân phối biên. Khi sử dụng MLE, chúng tôi thường ước tính các tham số của phân phối chung bằng cách đưa ra giả định iid, sau đó bao gồm phân phối chung như một sản phẩm của các lề mà chúng ta biết. Có nhiều biến thể, nhưng đây là ý tưởng trong hầu hết các trường hợp. Vì vậy, MLE là một phương pháp tham số.

Thuật toán EM là một phương pháp để tối đa hóa các hàm khả năng xuất hiện như một phần của thuật toán MLE. Nó thường (thường là?) Được sử dụng cho các giải pháp số.

Bất cứ khi nào chúng tôi sử dụng MLE, chúng tôi cần ít nhất các phân phối biên và một số giả định về cách liên kết với các lề (độc lập, v.v.). Do đó cả hai phương pháp đều dựa vào kiến ​​thức phân phối.


Cảm ơn @Charles có ý nghĩa. Điều đó có nghĩa là gì khi mọi người nói về "MLE không tham số". Cụm từ đó không có ý nghĩa gì từ cái nhìn đầu tiên. MLE luôn ước tính một tham số của phân phối, phải không?
Creatron 17/12/13

Họ có thể đang nói về ELE (Ước tính khả năng sống theo kinh nghiệm). Tôi chưa bao giờ sử dụng nó; Tôi sẽ cố gắng giải thích nếu cần thiết. Nếu không thì tôi không chắc.
Charles Pehlivanian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.