Tôi bối rối về phương pháp khả năng tối đa so với ví dụ tính toán trung bình số học.
Khi nào và tại sao khả năng tối đa tạo ra các ước tính "tốt hơn" hơn là ví dụ trung bình số học? Làm thế nào là kiểm chứng này?
Tôi bối rối về phương pháp khả năng tối đa so với ví dụ tính toán trung bình số học.
Khi nào và tại sao khả năng tối đa tạo ra các ước tính "tốt hơn" hơn là ví dụ trung bình số học? Làm thế nào là kiểm chứng này?
Câu trả lời:
Trong khi trung bình số học có thể nghe là công cụ ước tính "tự nhiên", người ta có thể hỏi tại sao nên ưu tiên cho MLE! Thuộc tính chắc chắn duy nhất liên quan đến trung bình số học là nó là một công cụ ước tính không thiên vị của E [ X ] khi kỳ vọng này được xác định. (Hãy nghĩ về phân phối Cauchy như một ví dụ ngược lại.) Thực tế sau này thích một loạt các thuộc tính trong các điều kiện đều đặn trên hàm khả năng. Để mượn từ trang wikipedia , MLE là
So với trung bình số học, hầu hết các tính chất đó cũng được thỏa mãn cho các phân phối đủ thường xuyên. Ngoại trừ 4 và 5. Trong trường hợp gia đình hàm mũ, MLE và trung bình số học là giống hệt nhau để ước tính tham số trong tham số hóa trung bình (nhưng không phải cho các tham số hóa khác). Và MLE tồn tại cho một mẫu từ phân phối Cauchy.
Tuy nhiên, khi chuyển sang các thuộc tính tối ưu mẫu hữu hạn như tối thiểu hóa hoặc có thể được chấp nhận, có thể xảy ra rằng MLE không phải là minimax cũng không được chấp nhận. Ví dụ, hiệu ứng Stein cho thấy tồn tại các công cụ ước tính có rủi ro bậc hai nhỏ hơn cho tất cả các giá trị của tham số theo một số ràng buộc về phân phối mẫu và kích thước của tham số. Đây là trường hợp khi và p ≥ 3 .
Chúng ta hãy hiểu "tính toán trung bình số học" là ước tính bằng Phương pháp Khoảnh khắc (MoM). Tôi tin rằng nó trung thành với câu hỏi ban đầu vì phương pháp thay thế trung bình mẫu cho các câu hỏi lý thuyết. Nó cũng giải quyết mối quan tâm của @ Xi'an về một tham số tùy ý (từ một mô hình tùy ý).
Nếu bạn vẫn ở bên tôi, thì tôi nghĩ một nơi tuyệt vời để đến là Ví dụ về phương pháp khoảnh khắc có thể đánh bại khả năng tối đa trong các mẫu nhỏ? Văn bản câu hỏi chỉ ra rằng "Công cụ ước tính khả năng tối đa (MLE) là hiệu quả không có triệu chứng; chúng tôi thấy kết quả thực tế ở chỗ chúng thường làm tốt hơn phương pháp ước tính (MoM) (khi chúng khác nhau)" và tìm kiếm các trường hợp cụ thể trong đó công cụ ước tính MoM đạt được một lỗi bình phương trung bình nhỏ hơn so với đối tác MLE của nó. Một vài ví dụ được cung cấp là trong bối cảnh hồi quy tuyến tính, phân phối nghịch đảo Gaussian hai tham số và phân phối công suất theo hàm mũ không đối xứng.
Ý tưởng về "hiệu quả tiệm cận" này có nghĩa là các công cụ ước tính khả năng tối đa có thể gần với việc sử dụng dữ liệu với tiềm năng tối đa của nó (để ước tính tham số trong câu hỏi), một sự đảm bảo mà bạn không có được với phương pháp nói chung. Mặc dù khả năng tối đa không phải lúc nào cũng "tốt hơn" so với làm việc với mức trung bình, thuộc tính hiệu quả này (nếu chỉ trong giới hạn) làm cho nó trở thành một phương pháp phù hợp với hầu hết những người thường xuyên. Tất nhiên, người phản đối có thể lập luận rằng với kích thước ngày càng tăng của các tập dữ liệu, nếu bạn đang chỉ đúng mục tiêu có chức năng tính trung bình, hãy đi theo nó.
Có một số ví dụ nổi tiếng trong đó khả năng tối đa (ML) không cung cấp giải pháp tốt nhất. Xem bài viết năm 1990 của Lucien Le Cam: "Khả năng tối đa: giới thiệu" [1] , đó là từ các bài giảng được mời của ông tại Univ. của Maryland.
Ví dụ mà tôi thích nhất, bởi vì nó rất đơn giản, là đây:
Tôi sẽ không phá hỏng niềm vui bằng cách cho bạn câu trả lời, nhưng (không có gì ngạc nhiên) có hai cách để giải quyết vấn đề này bằng ML và họ đưa ra các giải pháp khác nhau. Một là "trung bình số học" của phần dư bình phương (như người ta mong đợi), và cái kia là một nửa số trung bình số học. Bạn có thể tìm thấy câu trả lời ở đây trên trang Github của tôi.