Khi nào khả năng tối đa làm việc và khi nào nó không?

Tôi bối rối về phương pháp khả năng tối đa so với ví dụ tính toán trung bình số học.

Khi nào và tại sao khả năng tối đa tạo ra các ước tính "tốt hơn" hơn là ví dụ trung bình số học? Làm thế nào là kiểm chứng này?

maximum-likelihood

— mavavilj
nguồn

+1 Đây là một câu hỏi hay để hỏi về bất kỳ thủ tục thống kê nào.

— whuber

Tôi không nghĩ câu hỏi này quá rõ ràng. Chắc chắn OP không rõ ràng, nhưng đó là lý do tại sao họ đang hỏi. Các vấn đề liên quan đến bản chất của MLE & phương tiện số học nên được làm sáng tỏ với câu trả lời tốt.

— gung - Phục hồi Monica

Bạn có ý nghĩa gì bởi "tốt hơn"? Và tại sao số học có nghĩa là một công cụ ước tính tốt của một tham số tùy ý?

— Tây An

Câu hỏi không thể được trả lời mà không đặt ra một định nghĩa "tốt hơn", nghĩa là về hàm mất hoặc một tiêu chí khác cho phép so sánh các ước lượng. Ví dụ, MLE là hiệu quả, có nghĩa là không có công cụ ước tính với phương sai tiệm cận nhỏ hơn (trong một số điều kiện đều đặn). Và ví dụ, MLE có thể không được chấp nhận như được thể hiện bằng hiệu ứng Stein , có nghĩa là tồn tại các công cụ ước tính có rủi ro bậc hai nhỏ hơn cho tất cả các giá trị của tham số theo một số ràng buộc về phân phối mẫu và kích thước của tham số.

— Tây An

@ Tây An Nghe có vẻ như là cơ sở của một câu trả lời.

— whuber

Câu trả lời:

Trong khi trung bình số học có thể nghe là công cụ ước tính "tự nhiên", người ta có thể hỏi tại sao nên ưu tiên cho MLE! Thuộc tính chắc chắn duy nhất liên quan đến trung bình số học là nó là một công cụ ước tính không thiên vị của khi kỳ vọng này được xác định. (Hãy nghĩ về phân phối Cauchy như một ví dụ ngược lại.) Thực tế sau này thích một loạt các thuộc tính trong các điều kiện đều đặn trên hàm khả năng. Để mượn từ trang wikipedia , MLE là $\bar{x}$ $\mathbb{E}[X]$

thích hợp
bình thường không có triệu chứng
hiệu quả ở chỗ nó đạt được phương sai tiệm cận tối thiểu
bất biến dưới biến đổi sinh học
trong tập tham số ngay cả đối với tập tham số bị ràng buộc

So với trung bình số học, hầu hết các tính chất đó cũng được thỏa mãn cho các phân phối đủ thường xuyên. Ngoại trừ 4 và 5. Trong trường hợp gia đình hàm mũ, MLE và trung bình số học là giống hệt nhau để ước tính tham số trong tham số hóa trung bình (nhưng không phải cho các tham số hóa khác). Và MLE tồn tại cho một mẫu từ phân phối Cauchy.

Tuy nhiên, khi chuyển sang các thuộc tính tối ưu mẫu hữu hạn như tối thiểu hóa hoặc có thể được chấp nhận, có thể xảy ra rằng MLE không phải là minimax cũng không được chấp nhận. Ví dụ, hiệu ứng Stein cho thấy tồn tại các công cụ ước tính có rủi ro bậc hai nhỏ hơn cho tất cả các giá trị của tham số theo một số ràng buộc về phân phối mẫu và kích thước của tham số. Đây là trường hợp khi và . $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— Tây An
nguồn

Chỉ cần làm rõ về mle - 5 thuộc tính được liệt kê đều nằm trong bối cảnh của một mô hình giả định cho dân số.

— xác suất

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

Chúng ta hãy hiểu "tính toán trung bình số học" là ước tính bằng Phương pháp Khoảnh khắc (MoM). Tôi tin rằng nó trung thành với câu hỏi ban đầu vì phương pháp thay thế trung bình mẫu cho các câu hỏi lý thuyết. Nó cũng giải quyết mối quan tâm của @ Xi'an về một tham số tùy ý (từ một mô hình tùy ý).

Nếu bạn vẫn ở bên tôi, thì tôi nghĩ một nơi tuyệt vời để đến là Ví dụ về phương pháp khoảnh khắc có thể đánh bại khả năng tối đa trong các mẫu nhỏ? Văn bản câu hỏi chỉ ra rằng "Công cụ ước tính khả năng tối đa (MLE) là hiệu quả không có triệu chứng; chúng tôi thấy kết quả thực tế ở chỗ chúng thường làm tốt hơn phương pháp ước tính (MoM) (khi chúng khác nhau)" và tìm kiếm các trường hợp cụ thể trong đó công cụ ước tính MoM đạt được một lỗi bình phương trung bình nhỏ hơn so với đối tác MLE của nó. Một vài ví dụ được cung cấp là trong bối cảnh hồi quy tuyến tính, phân phối nghịch đảo Gaussian hai tham số và phân phối công suất theo hàm mũ không đối xứng.

Ý tưởng về "hiệu quả tiệm cận" này có nghĩa là các công cụ ước tính khả năng tối đa có thể gần với việc sử dụng dữ liệu với tiềm năng tối đa của nó (để ước tính tham số trong câu hỏi), một sự đảm bảo mà bạn không có được với phương pháp nói chung. Mặc dù khả năng tối đa không phải lúc nào cũng "tốt hơn" so với làm việc với mức trung bình, thuộc tính hiệu quả này (nếu chỉ trong giới hạn) làm cho nó trở thành một phương pháp phù hợp với hầu hết những người thường xuyên. Tất nhiên, người phản đối có thể lập luận rằng với kích thước ngày càng tăng của các tập dữ liệu, nếu bạn đang chỉ đúng mục tiêu có chức năng tính trung bình, hãy đi theo nó.

— Ben Ogorek
nguồn

Có một số ví dụ nổi tiếng trong đó khả năng tối đa (ML) không cung cấp giải pháp tốt nhất. Xem bài viết năm 1990 của Lucien Le Cam: "Khả năng tối đa: giới thiệu" [1] , đó là từ các bài giảng được mời của ông tại Univ. của Maryland.

Ví dụ mà tôi thích nhất, bởi vì nó rất đơn giản, là đây:

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

Tôi sẽ không phá hỏng niềm vui bằng cách cho bạn câu trả lời, nhưng (không có gì ngạc nhiên) có hai cách để giải quyết vấn đề này bằng ML và họ đưa ra các giải pháp khác nhau. Một là "trung bình số học" của phần dư bình phương (như người ta mong đợi), và cái kia là một nửa số trung bình số học. Bạn có thể tìm thấy câu trả lời ở đây trên trang Github của tôi.

— idnavid
nguồn