mối quan hệ giữa tối đa hóa khả năng và giảm thiểu entropy chéo


Câu trả lời:


10

Đối với nhãn , khả năng một số dữ liệu nhị phân theo mô hình Bernoulli có tham số là trong khi khả năng là yi{0,1}θ

L(θ)=i=1np(yi=1|θ)yip(yi=0|θ)1yi
logL(θ)=i=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

Và entropy chéo nhị phân là

L(θ)=1ni=1nyilogp(y=1|θ)+(1yi)logp(y=0|θ)

Rõ ràng, .logL(θ)=nL(θ)

Chúng tôi biết rằng giá trị tối ưu là giống nhau cho cả hai vì chúng tôi có thể quan sát rằng với bất kỳ nào không tối ưu, chúng tôi có , giữ cho mọi . (Hãy nhớ rằng, chúng tôi muốn giảm thiểu entropy chéo , vì vậy tối ưu có ít nhất .)θθ1nL(θ)>1nL(θ)1n>0θL(θ)

Tương tự, chúng ta biết rằng giá trị tối ưu là giống nhau cho và vì là hàm tăng đơn điệu cho , vì vậy chúng ta có thể viết . (Hãy nhớ rằng, chúng tôi muốn tối đa hóa khả năng , vì vậy tối ưu có nhiều .)θlogL(θ)L(θ)log(x)xR+logL(θ)<logL(θ)θL(θ)

Một số nguồn bỏ qua từ entropy chéo. Rõ ràng, điều này chỉ thay đổi giá trị của , nhưng không thay đổi vị trí của tối ưu, do đó, từ góc độ tối ưu hóa, sự khác biệt không quan trọng. Tuy nhiên, dấu hiệu tiêu cực rõ ràng rất quan trọng vì đó là sự khác biệt giữa tối đa hóa và tối thiểu hóa!1nL(θ)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.