Bao nhiêu tính toán là cần thiết để hiểu ước tính khả năng tối đa?


11

Tôi đang cố gắng lên kế hoạch cho một kế hoạch học tập để học MLE. Để làm điều này, tôi đang cố gắng tìm ra mức độ tính toán tối thiểu cần thiết để hiểu MLE là gì.

Có đủ để hiểu những điều cơ bản của phép tính (tức là tìm các hàm tối thiểu và tối đa) để hiểu MLE không?


2
Như mọi khi, nó phụ thuộc . Nếu bạn chỉ cố gắng hiểu những điều cơ bản, việc có thể tìm thấy các chức năng cực đoan giúp bạn có một cách công bằng (mặc dù trong nhiều trường hợp thực tế của MLE, L là số một, trong trường hợp đó bạn cũng cần một số kỹ năng khác như một số tính toán cơ bản).
Glen_b -Reinstate Monica

Cảm ơn. Bạn có thể giải thích trường hợp bạn đề cập chi tiết hơn? Nghe thú vị.
histelheim

được rồi nhưng bây giờ tôi phải làm cho nó một câu trả lời. Treo lên.
Glen_b -Reinstate Monica

Câu trả lời:


20

Để mở rộng nhận xét của tôi - nó phụ thuộc. Nếu bạn chỉ cố gắng hiểu những điều cơ bản, việc có thể tìm thấy các hàm cực trị giúp bạn có một cách công bằng (mặc dù trong nhiều trường hợp thực tế của MLE, khả năng là tối đa hóa số lượng, trong trường hợp đó bạn cần một số kỹ năng khác cũng như một số tính toán cơ bản).

Tôi sẽ bỏ qua những trường hợp đơn giản mà bạn có được các giải pháp đại số rõ ràng. Mặc dù vậy, tính toán thường rất hữu ích.

Tôi sẽ đảm nhận sự độc lập xuyên suốt. Hãy lấy trường hợp đơn giản nhất có thể tối ưu hóa 1 tham số. Trước tiên chúng ta sẽ xem xét một trường hợp chúng ta có thể lấy đạo hàm và tách ra một hàm của tham số và một thống kê.

Hãy xem xét các mật độGamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

Sau đó, đối với một mẫu có kích thước , khả năng làn

L(α;x)=i=1nfX(xi;α)

và vì vậy, khả năng đăng nhập là trong đó . Lấy dẫn xuất,

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

Vì vậy, nếu chúng tôi đặt giá trị đó thành 0 và cố gắng giải quyết cho , chúng tôi có thể nhận được điều này: α^

ψ(α^)=lnG(x)

trong đó là hàm digamma và là trung bình hình học . Chúng ta không được quên rằng nói chung, bạn không thể đặt đạo hàm về 0 và tự tin rằng bạn sẽ xác định vị trí argmax ; bạn vẫn phải chỉ ra một cách nào đó rằng giải pháp là tối đa (trong trường hợp này là như vậy). Tổng quát hơn, bạn có thể nhận được cực tiểu hoặc các điểm không theo chiều ngang và ngay cả khi bạn có mức tối đa cục bộ, bạn có thể không có mức tối đa toàn cầu (mà tôi chạm vào gần cuối).ψ()G()

Vì vậy, nhiệm vụ của chúng ta bây giờ là tìm giá trị của màα^

ψ(α^)=g

trong đó .g=lnG(x)

Điều này không có một giải pháp về các chức năng cơ bản, nó phải được tính bằng số; ít nhất chúng ta đã có thể có được một chức năng của tham số ở một bên và chức năng của dữ liệu ở bên kia. Có nhiều thuật toán tìm kiếm khác nhau có thể được sử dụng nếu bạn không có cách giải phương trình rõ ràng (ngay cả khi bạn không có đạo hàm, chẳng hạn có phần nhị phân).

Thông thường, nó không đẹp như vậy. Hãy xem xét mật độ logistic với thang đo đơn vị: Cả argmax của khả năng cũng như hàm khả năng đăng nhập đều có thể dễ dàng thu được theo đại số - bạn phải sử dụng các phương pháp tối ưu hóa số. Trong trường hợp này, hàm hoạt động khá tốt và phương pháp Newton-Raphson thường đủ để xác định ước tính ML của . Nếu đạo hàm không có sẵn hoặc nếu Newton-Raphson không hội tụ, các phương pháp tối ưu hóa số khác có thể cần thiết, chẳng hạn như phần vàng (đây không phải là tổng quan về các phương pháp khả dụng tốt nhất, chỉ cần đề cập đến một số phương pháp bạn có nhiều hơn có khả năng gặp phải ở mức cơ bản).

f(x;μ)=14sech2(xμ2).
μ

Tổng quát hơn, bạn thậm chí có thể không làm được nhiều như vậy. Hãy xem xét một Cauchy với trung vị và thang đo đơn vị:θ

fX(x;θ)=1π(1+(xθ)2).

Nói chung, khả năng ở đây không có tối đa cục bộ duy nhất, nhưng một số cực đại cục bộ. Nếu bạn tìm thấy một mức tối đa cục bộ, có thể có một cái khác, lớn hơn ở nơi khác. (Đôi khi mọi người tập trung vào việc xác định mức tối đa cục bộ gần nhất với trung vị hoặc một số thứ tương tự.)

Người mới bắt đầu dễ dàng cho rằng nếu họ tìm thấy một bước ngoặt lõm mà họ có argmax của chức năng, nhưng bên cạnh nhiều chế độ (đã được thảo luận), có thể có cực đại không liên quan đến các bước ngoặt. Lấy đạo hàm và đặt chúng về 0 là không đủ; xem xét ước tính tham số cho đồng phục trên chẳng hạn.(0,θ)

Trong các trường hợp khác, không gian tham số có thể rời rạc.

Đôi khi việc tìm kiếm tối đa có thể khá liên quan.

Và đó chỉ là một mẫu của các vấn đề với một tham số duy nhất. Khi bạn có nhiều tham số, mọi thứ sẽ tham gia nhiều hơn một lần nữa.


4

Đúng. Tất nhiên, chúng ta không nói về các hàm một chiều, nhưng các hàm được tối đa hóa (viz., Khả năng), do đó, điều này tiến bộ hơn một chút so với- trường hợp chiều.RpR

Một số cơ sở với logarit chắc chắn sẽ hữu ích, vì tối đa hóa logarit của khả năng thường dễ dàng hơn nhiều so với tối đa hóa khả năng của chính nó.

Khá nhiều hơn MLE đơn giản có thể được hiểu (ma trận thông tin, v.v.) nếu bạn có thể xử lý các đạo hàm thứ hai của các hàm , tức là ma trận Hessian.RpR

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.