Chúng ta có bao giờ sử dụng ước tính khả năng tối đa?


14

Tôi tự hỏi nếu ước tính khả năng tối đa từng được sử dụng trong thống kê. Chúng tôi tìm hiểu khái niệm về nó nhưng tôi tự hỏi khi nó thực sự được sử dụng. Nếu chúng ta giả sử phân phối dữ liệu, chúng ta sẽ tìm thấy hai tham số, một cho giá trị trung bình và một cho phương sai, nhưng bạn có thực sự sử dụng nó trong các tình huống thực tế không?

Ai đó có thể cho tôi biết một trường hợp đơn giản trong đó nó được sử dụng cho?


33
Đó là phương pháp ước lượng phổ biến nhất. the
JohnK

3
Tôi đã cố gắng hỏi khi nào chúng ta không sử dụng MLE
Haitao Du

4
hồi quy logistic. Hồi quy Poisson. OLS là MLE khi các lỗi được giả định là bình thường. Hồi quy Gamma. Bất kỳ GLM cổ điển thực sự. Ước tính giá trị trung bình từ một dân số bình thường. Ước tính xác suất thành công từ một loạt các thử nghiệm nhị thức. Ước tính tỷ lệ sự kiện poisson. Tôi có thể tiếp tục ...
GoF_Logistic

4
Tìm kiếm rất hẹp này của trang web của chúng tôi tạo ra hàng trăm ví dụ về việc sử dụng thực tế.
whuber

6
@ hxd1011 Bạn không sử dụng MLE khi bạn không sử dụng các phương pháp của nó để có được phương sai của ước tính hoặc để tính toán độ tin cậy, dự đoán hoặc khoảng dung sai, ngay cả khi công cụ ước tính bạn đang sử dụng có thể xảy ra để đồng ý với công cụ ước tính MLE. Chẳng hạn, bạn không sử dụng MLE khi chạy bất kỳ bài kiểm tra t nào. Bạn thường không sử dụng nó khi bạn đang áp dụng các công cụ ước tính không thiên vị. Về mặt triết học, bạn sẽ không sử dụng MLE khi bạn quan tâm đến chức năng mất hoặc bạn có phân phối trước.
whuber

Câu trả lời:


25

Tôi tự hỏi nếu ước tính khả năng tối đa từng được sử dụng trong thống kê.

Chắc chắn rồi! Thực tế khá nhiều - nhưng không phải lúc nào cũng vậy.

Chúng tôi tìm hiểu khái niệm về nó nhưng tôi tự hỏi khi nó thực sự được sử dụng.

Khi mọi người có một mô hình phân phối tham số, họ thường chọn sử dụng ước tính khả năng tối đa. Khi mô hình là chính xác, có một số thuộc tính tiện dụng của các ước tính khả năng tối đa.

Đối với một ví dụ - việc sử dụng các mô hình tuyến tính tổng quát là khá phổ biến và trong trường hợp đó, các tham số mô tả giá trị trung bình được ước tính theo khả năng tối đa.

Nó có thể xảy ra rằng một số tham số được ước tính bởi khả năng tối đa và những người khác thì không. Ví dụ, hãy xem xét một Poisson GLM quá liều - tham số phân tán sẽ không được ước tính theo khả năng tối đa, vì MLE không hữu ích trong trường hợp đó.

Nếu chúng ta giả sử phân phối dữ liệu, chúng ta sẽ tìm thấy hai tham số

Chà, đôi khi bạn có thể có hai, nhưng đôi khi bạn có một tham số, đôi khi ba hoặc bốn hoặc nhiều hơn.

Một cho trung bình và một cho phương sai,

Bạn đang nghĩ về một mô hình cụ thể có lẽ? Đây không phải là luôn luôn như vậy. Xem xét ước tính tham số của phân phối theo cấp số nhân hoặc phân phối Poisson hoặc phân phối nhị thức. Trong mỗi trường hợp đó, có một tham số và phương sai là một hàm của tham số mô tả giá trị trung bình.

Hoặc xem xét một phân phối gamma tổng quát , trong đó có ba tham số. Hoặc bản phân phối beta gồm bốn tham số , có (có lẽ không ngạc nhiên) bốn tham số. Cũng lưu ý rằng (tùy thuộc vào tham số cụ thể) giá trị trung bình hoặc phương sai hoặc cả hai có thể không được biểu thị bằng một tham số duy nhất mà bằng các chức năng của một vài trong số chúng.

Ví dụ, sự phân bố gamma, mà có ba tham số hoá mà thấy sử dụng khá phổ biến - các chung hai hầu hết trong số đó có chức năng cả hai giá trị trung bình và phương sai là của hai tham số.

Thông thường trong mô hình hồi quy hoặc GLM hoặc mô hình sống sót (trong số nhiều loại mô hình khác), mô hình có thể phụ thuộc vào nhiều yếu tố dự đoán, trong trường hợp phân phối được liên kết với mỗi quan sát trong mô hình có thể có một tham số riêng (hoặc thậm chí một vài tham số) có liên quan đến nhiều biến dự đoán ("biến độc lập").


5
"Khi mọi người có một mô hình phân phối tham số." Đừng quên ước tính khả năng tối đa không tham số, để bao gồm khả năng theo kinh nghiệm.
Mark L. Stone

3
@Mark Tương đối hiếm hơn, mặc dù. Tôi sẽ thêm một từ vào câu trả lời của tôi.
Glen_b -Reinstate Monica

Chúng ta có thể sử dụng ước tính khả năng tối đa mặc dù chúng ta giả sử phân phối, ví dụ, là bình thường? Tôi nghĩ rằng chúng ta không cần nhưng chúng ta vẫn có thể sử dụng nó, phải không?
122,58

@ user122353 Glen và Mark đã trả lời bạn rồi. Bạn có thể giả định một phân phối hoặc không. Hầu hết thời gian bạn đảm nhận một phân phối và do đó khả năng chức năng.
SmallChess

3
"Khi mọi người có một mô hình phân phối tham số." Đừng quên ước tính khả năng tối đa bán tham số, để bao gồm khả năng một phần. ;)
Scortchi - Phục hồi Monica

8

Mặc dù các công cụ ước tính tối đa hóa có thể trông đáng ngờ khi đưa ra các giả định về phân phối dữ liệu, Công cụ ước tính khả năng tối đa Quasi thường được sử dụng. Ý tưởng là bắt đầu bằng cách giả định một phân phối và giải quyết cho MLE, sau đó loại bỏ giả định phân phối rõ ràng và thay vào đó hãy xem cách trình ước tính của bạn thực hiện trong các điều kiện chung hơn. Vì vậy, Quasi MLE chỉ trở thành một cách thông minh để có được một công cụ ước tính, và phần lớn công việc sau đó lấy được các thuộc tính của công cụ ước tính. Do các giả định phân phối bị loại bỏ, MLE gần như thường không có các đặc tính hiệu quả tốt.

x1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2σ^2


Ngoài ra, bạn có thể kiểm tra chủ đề này trên trực giác đằng sau Quasi MLE.
Richard Hardy

5

Ước tính khả năng tối đa thường được sử dụng trong học máy để đào tạo:

Lưu ý rằng trong một số trường hợp, người ta thích thêm một số chính quy, đôi khi tương đương với ước tính tối đa của một posteriori , ví dụ: Tại sao hình phạt Lasso tương đương với số mũ đôi (Laplace) trước đó? .


3

Ai đó có thể cho tôi biết một trường hợp đơn giản trong đó nó được sử dụng cho?

Một trường hợp rất điển hình là trong hồi quy logistic. Hồi quy logistic là một kỹ thuật được sử dụng thường xuyên trong học máy để phân loại các điểm dữ liệu. Ví dụ, hồi quy logistic có thể được sử dụng để phân loại xem email có phải là thư rác hay không phải là thư rác hoặc phân loại xem một người có hoặc không mắc bệnh.

Cụ thể, mô hình hồi quy logistic nói rằng xác suất một điểm dữ liệu xTôi trong lớp 1 như sau: hθ(xTôi)= =P[yi=1]=11+eθTxi

The parameter vector θ is typically estimated using MLE.

Specifically, using optimization methods, we find the estimator θ^ such that the expression i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi)) is minimized. This expression is the negative log likelihood, so minimizing this is equivalent to maximizing the likelihood.


1

We are using MLE all the time, but we may not feel it. I will give two simple examples to show.

Example 1

If we observe coin flip result, with 8 head out of 10 flips (assuming iid. from Bernoulli), how to guess the parameter θ (prob of head) of the coin? We may say θ=0.8, using "counting".

Why use counting? this is actually implicitly using MLE! Where the problem is

Maximizeθ   θ8(1θ)2

To solve the equation, we will need some calculus, but the conclusion is counting.

Example 2

How would we estimate a Gaussian distribution parameters from data? We use empirical mean as estimated mean and empirical variance as estimated variance, which is also coming from MLE!.


6
Example 1 is also a Bayes solution and a method of moments (MM) solution (and probably it's the solution using other procedures as well). Example 2 is the MM solution. It would be much more convincing to exhibit procedures that are exclusively MLE--for otherwise one wouldn't ever need MLE.
whuber

Why example 1 becomes a Bayes solution and Example 2 becomes the MM solution? What is MM, by the way?
user122358

@user122358 MM is the method of moments. See here, for instance: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld

0

Some maximum likelihood uses in wireless communication:

  • Decoding of digital data from noisy received signals, with or without redundant codes.
  • Estimation of time-, phase-, and frequency-offsets in receivers.
  • Estimation of the (parameters of the) propagation channel.
  • Estimation of delay, angle of arrival, and Doppler shift (e.g., radar).
  • Estimation of a mobile position (e.g., GPS).
  • Estimation of clock offsets for synchronization of all kinds of distributed settings.
  • A multitude of calibration procedures.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.