Khả năng tối đa không phải là bất biến tái tham số. Vậy làm thế nào người ta có thể biện minh cho việc sử dụng nó?


7

Có điều gì đó làm tôi bối rối về các công cụ ước tính khả năng tối đa. Giả sử tôi có một số dữ liệu và khả năng theo tham số làμ

L(D|μ)=e(.7μ)2

có thể nhận ra là khả năng của Gaussian lên tới tỷ lệ. Bây giờ công cụ ước tính khả năng tối đa của tôi sẽ cho tôi μ=.7 .

Bây giờ, giả sử tôi không biết điều đó và thay vào đó đang làm việc với một tham số t sao cho μ=sin(t) . Cũng giả sử tất cả những thứ này là số và vì vậy tôi sẽ không thấy ngay khả năng ngớ ngẩn sau đây trông như thế nào

L(D|t)=e(.7sin(t))2

Bây giờ tôi sẽ giải quyết cho khả năng tối đa và nhận được giải pháp bổ sung. Để giúp nhìn thấy điều này, tôi vẽ nó dưới đây.

nhập mô tả hình ảnh ở đây

Vì vậy, từ quan điểm này, khả năng tối đa có vẻ như là một điều ngớ ngẩn để làm vì nó không phảibất biến tái tham số . Tôi đang thiếu gì?

Lưu ý rằng một phân tích Bayes đương nhiên sẽ quan tâm đến điều này vì khả năng sẽ luôn đi kèm với một biện pháp

L(D|μ)P(μ)dμ=L(D|μ(t))P(μ(t))dμdtdt

Đã thêm một phần sau khi trả lời và nhận xét (được thêm vào ngày 16/03/2018)

Sau đó tôi nhận ra rằng ví dụ của tôi ở trên không phải là một ví dụ tốt vì hai cực đại trong tương ứng với . Vì vậy, họ đang xác định cùng một điểm. Tôi đã giữ những điều trên để thảo luận và trả lời bên dưới để có ý nghĩa. Tuy nhiên, tôi nghĩ sau đây là một ví dụ tốt hơn về vấn đề tôi đang cố gắng tìm ra.t1,t2.7=sin(t1)=sin(t2)

Lấy

L(D|μ)=e(aμ)2

Bây giờ, giả sử tôi xác định lại thông số sau đó thực hiện tối đa khả năng đối với tôi nhận đượcμ=μ(t)t

Lt=Lμμt

Nếu tôi muốn có một cực đại tại một địa điểm khác với địa điểm tôi nhận được từ việc tối đa hóa đối với tôi yêu cầuμ

Lμ0

μt=0,Lμ2μt2<0

Vì vậy, tôi có thể lấy một ví dụ đơn giản

μ=b(ab)t2+t3

Tôi vẽ kết quả dưới đây. Chúng ta có thể thấy rõ rằng là cực đại toàn cầu (và chỉ một khi tối đa hóa đối với ) nhưng chúng ta cũng có một cực đại cục bộ khác tại khi chúng ta tối đa hóa đối với .μ=aμt=0t

nhập mô tả hình ảnh ở đây

Lưu ý rằng bản đồ không phải là tính từ nhưng tôi không hiểu tại sao nó phải như vậy. Ngoài ra, ít nhất trong ví dụ này, cực đại toàn cầu sẽ luôn là cực đại tại nhưng theo quan điểm thường xuyên, tôi sẽ không bị buộc phải lấy một loại trung bình có trọng số là 1 / 1.6 của và .6 / 1.6 của (tương ứng với ) nếu tôi hoàn toàn làm việc trong không gian ?μ(t)μ=aμ=aμ=bt=0t


11
Trái lại, giải pháp bất biến. Công thức chính xác là tất cả các giá trị tối thiểu hóa tương ứng với các giá trị của làm giảm thiểu - chỉ nên rõ ràng từ ký hiệu. Để giữ kết quả này, không quan trọng là là không thể đảo ngược, một đối một, liên tục hay bất cứ điều gì khác, vì cuối cùng, tất cả những gì chúng ta đang thảo luận là làm thế nào để đặt tên cho (các) phân phối mà khả năng là lớn nhất. "Một bông hồng của bất kỳ tên nào khác có mùi cũng ngọt ngào." tL(μ(t))μL(μ)μ
whuber

Tôi đã phải chỉnh sửa như ví dụ của tôi là không tốt. Ví dụ mới là và . Điều này mang lại cực đại 'cục bộ' bổ sung tại . Khả năng không phải là lưỡng kim vì vậy không nên lấy trung bình có trọng số? Nếu vậy điều này sẽ làm cho giải pháp không bất biến. L=e(aμ)2μ=b(ab)t2+t3t=0
Borun Chowdhury

@whuber Tôi đồng ý rằng vì khả năng là vô hướng, cực đại toàn cầu là bất biến dưới sự xác định lại giống như một bông hồng với một tên khác có mùi cũng ngọt ngào. Tôi đã nói nhiều hơn về khả năng tạo ra một số cực đại cục bộ và sau đó biện minh là không lấy trung bình có trọng số.
Borun Chowdhury

Không có trung bình nhất thiết sẽ có ý nghĩa gì cả, bởi vì cuối cùng bạn đang mô tả phân phối chứ không phải là số. Trong phép biến đổi nhiều thành một của bạn, bạn phải "lấy trung bình" cùng một phân phối - bởi vì tất cả các cực đại tương ứng với cùng một phân phối - nhưng trung bình của các "tên" số mà bạn đã gán các phân phối này sẽ là vô nghĩa .
whuber

Câu trả lời:


15

Nhìn vào biểu đồ của bạn, có vẻ như là một phỏng đoán khá hợp lý tại MLE (s) của . Chạy các giá trị đó thông qua hàm để quay lại kết quả trong hoặc , như bình thường. Vì vậy, không có bất đồng nào giữa MLE của và MLE (s) của .t^{0.7753975,2.346194}tsinμμ^={0.7,0.7}0.7μt

Điều đang xảy ra là bạn đã tạo một bản đồ từ không phải là 1-1. Trong trường hợp này, giá trị thực của ánh xạ tới nhiều giá trị của , vì vậy không ngạc nhiên khi bạn sẽ có nhiều cực đại khi làm việc với . Tuy nhiên, lưu ý rằng điều này sẽ giống nhau nếu bạn đang thực hiện phân tích Bayes, trừ khi trước đó bạn bị hạn chế trong khoảng hoặc một số thứ khác. Nếu bạn đã làm như vậy, để so sánh, bạn nên giới hạn phạm vi MLE của trong cùng một phạm vi, trong trường hợp đó bạn sẽ không nhận được nhiều cực đại cho hàm khả năng nữa.μtμttt[π/2,π/2)t

ETA: Nhìn lại, tôi tập trung quá nhiều vào ví dụ giải thích và không đủ cho nguyên tắc cơ bản. Người ta khó có thể làm tốt hơn bình luận của @ whuber khi trả lời OP về vấn đề này.

Nói chung, nếu bạn có một tham số và một MLE liên kết và bạn xây dựng một hàm , bạn đã tạo ra một tham số thay thế một cách hiệu quả . MLE của , gắn nhãn nó , sẽ là các giá trị của sao cho , tức là . θθ^θ=f(t)ttt^tf(t)=θ^f(t^)=θ^


Tôi đồng ý rằng ví dụ của tôi không hoàn toàn như tôi mong đợi. Tôi nhận ra nó trên đường trở về nhà. Một ví dụ tốt hơn là . Ở đây, chúng tôi nhận được cực đại cho mà không ánh xạ tới (tùy thuộc vào ). Tuy nhiên, nó cũng không phải là tính từ. μ=bt2+t3tμ=.7b
Borun Chowdhury

Tôi không thấy lý do tại sao tham số phải được phỏng đoán. Trong thực tế, tôi không hỏi những tham số nào có thể được thực hiện để đưa ra câu trả lời tương tự, tôi đang hỏi tại sao khả năng tối đa được sử dụng khi nó không phải là tham số lại bất biến.
Borun Chowdhury

Một số suy nghĩ tốt nhất của tôi được thực hiện trong lưu lượng giờ cao điểm ... Bạn có thể đưa ra một , và mà dẫn đến các giá trị khác nhau cho hàm khả năng khi bạn cắm vào hơn khi bạn cắm thay cho ? Tôi đoán là không ... xem bình luận của @ whuber ở trên. μbtμ=bt2+t3μbt2+t3μ
Jbowman 15/03/18

Quan điểm của tôi về bản chất không phải 1-1 của chức năng của bạn không phải là nó hoàn toàn không hoạt động, đó là điều chịu trách nhiệm cho tính đa phương thức của hàm khả năng đối với (cũng vậy và chức năng đó không 1-1 tại , rõ ràng là hạn chế hơn.)tμ
jbowman 15/03/18

Tôi đã chỉnh sửa để bao gồm các ví dụ đã nói ở trên. Tôi đã lấy . Sau đó, miễn là có thêm cực đại 'cục bộ' tại . Mặc dù là cực đại cục bộ, vì chiều cao của nó tương đương nhau, nên khả năng tối đa phải là trung bình có trọng số là (Tôi đoán đó là những gì được thực hiện cho khả năng tối đa lưỡng kim). μ=b(ab)t2+t3abt=0(μ=b)μ=a,b
Borun Chowdhury

1

Vì câu trả lời trước của tôi không hoàn toàn rõ ràng về sự cần thiết của tính sinh học hay không (người ta có thể lập luận rằng câu trả lời của tôi hoàn toàn sai). Tôi đã thực hiện một số nghiên cứu về toàn bộ điều tái chế và đây là những gì tôi tìm ra. Cả @whuber và @jbowman đều chạm vào một số điều tương tự.

Học thuyết

Vì vậy, về mặt lý thuyết, công cụ ước tính khả năng tối đa của hàm khả năng , là bất biến đối với tham số lại. Vì vậy, giả sử bạn có một số hàm đã biết , tham số lại thành (trong đó kích thước của và không nhất thiết phải giống nhau). Sau đó, hai sự thật đúng,θ^L(θ)gθλ=g(θ)θλ

  • Tối đa hóa wrt. , nghĩa là tìm MLE, , và sau đó lặp lại nó, , mang lại MLE của . Nói tóm lại, .L(θ)θθ^g(θ^)λ^λ^=g(θ^)
  • Hơn nữa, nếu có nghịch đảo, tối đa hóa wrt. , nghĩa là tìm MLE mang lại mức tối đa giống như . Vậy MLE của là .gL(g1(λ))λλ^θ^θθ^=g1(λ^)

Việc chia bất biến trong hai trường hợp con này có vẻ hơi giả tạo, nhưng tôi thấy nó hữu ích vì chúng đại diện cho hai trường hợp sử dụng khác nhau của tái tham số.

Trong thực tế

Trường hợp sử dụng đầu tiên là nơi bạn bằng cách nào đó có thể xác định MLE cho một số tham số, nhưng bạn thực sự cần một biến đổi nhất định của biến đó. Ví dụ: bạn có một công cụ ước tính, cho tham số trong phân phối bình thường, nhưng bạn thực sự quan tâm đến MLE cho phương sai . Sau đó, bạn có thể sử dụng nguyên tắc bất biến và chỉ cần bình phương -MLE, .σ^,σσ2σσ2^=(σ^)2

Một ví dụ cho trường hợp sử dụng thứ hai, là bạn có một thuật toán số, như độ dốc gốc hoặc Newton-Raphson, để tối đa hóa hàm khả năng. Giả sử, bạn muốn ước tính tham số từ một bản phân phối bình thường. Tham số này hoàn toàn tích cực theo định nghĩa, nhưng quy trình số không cho phép bạn thực hiện các ràng buộc. Vâng, bạn có thể sử dụng thuộc tính bất biến để thiết lập và để cho các thuật toán khác nhau thay vì , cách này đảm bảo rằng ở lại tích cực. Hàm mũ là tính từ, nhưng điều này không bắt buộc. Chúng tôi có thể đã sử dụngσ2σ2=exp(λ)λσ2σ2σ2=λ2 thay vào đó, đó không phải là tính từ. Nhưng sử dụng một bijection là thực tế hơn, vì chúng ta có thể đi từ đến và trở lại theo cách độc đáo.σ2λ

Các thủ tục

Để xác định MLE của chính thức hơn, chúng ta cần xác định hàm được gọi là hàm khả năng hồ sơ là,λ

L(λ)=supθ|λ=g(θ)L(θ).

Vì vậy, đối với một định giá trị giá trị khả năng của cấu hình, là tối cao trên tất cả các để đảm bảo rằng bằng .λθg(θ)λ

Với khả năng hồ sơ được xác định, sau đó chúng tôi có thể xác định MLE cho , ký hiệu là , là giá trị tối đa hóa .λλ^L(λ)

Với những định nghĩa này, sự bất biến của tái tham số hóa sôi sục đến,

L(λ^)=L(θ^)

có thể được chứng minh bằng,

L(λ^)=maxλL(λ)=maxλsupθ|λ=g(θ)L(θ)=supθL(θ)=maxθL(θ)

trong đó tôi đã giả sử rằng có mức tối đa.L(θ)

Nếu tham số lại là một mệnh đề tức là không thể đảo ngược, thì chỉ đơn giản là vì mỗi ánh xạ duy nhất vào một và do đó, tối cao trên `` all '' 'chỉ sụp đổ thành duy nhất . Vì vậy, chúng tôi nhận được rằng,L(λ)L(g(θ))θλθL(θ)

L(λ)=L(g(θ))L(g1(λ))=L(θ)
và do đó,

θ^=g1(λ^).
Người giới thiệu:

Thuộc tính bất biến của MLE: MLE của của bình thường, gì?θ2X¯2

http://www.stats.ox.ac.uk/~dlunn/b8_02/b8pdf_6.pdf

http://www.stat.unc.edu/facemony/cji/lecture7.pdf

https://en.wikipedia.org/wiki/Maximum_likabilities_estimation#Factoral_invariance

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.