mối quan hệ giữa tối đa hóa khả năng và giảm thiểu entropy chéo

Có một tuyên bố rằng tối đa hóa khả năng là tương đương với giảm thiểu entropy chéo. Có bằng chứng nào cho tuyên bố này không?

— người dùng3269
nguồn

Đối với nhãn , khả năng một số dữ liệu nhị phân theo mô hình Bernoulli có tham số là trong khi khả năng là $y_i\in \{0,1\}$ $\theta$

L (θ) = \prod_{i = 1}^{n} p (y_{i} = 1 | θ)^{y_{i}} p (y_{i} = 0 | θ)^{1 - y_{i}}

$\mathcal{L}(\theta) = \prod_{i=1}^n p(y_i=1|\theta)^{y_i}p(y_i=0|\theta)^{1-y_i}\\$

\log L (θ) = \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$\log\mathcal{L}(\theta) = \sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

Và entropy chéo nhị phân là

L (θ) = - \frac{1}{n} \sum_{i = 1}^{n} y_{i} \log p (y = 1 | θ) + (1 - y_{i}) \log p (y = 0 | θ)

$L(\theta) = -\frac{1}{n}\sum_{i=1}^n y_i\log p(y=1|\theta) + (1-y_i)\log p(y=0|\theta)$

Rõ ràng, . $\log \mathcal{L}(\theta) = -nL(\theta)$

Chúng tôi biết rằng giá trị tối ưu là giống nhau cho cả hai vì chúng tôi có thể quan sát rằng với bất kỳ nào không tối ưu, chúng tôi có , giữ cho mọi . (Hãy nhớ rằng, chúng tôi muốn giảm thiểu entropy chéo , vì vậy tối ưu có ít nhất .) $\theta^*$ $\theta$ $\frac{1}{n} L(\theta) > \frac{1}{n} L(\theta^*)$ $\frac{1}{n} > 0$ $\theta^*$ $L(\theta^*)$

Tương tự, chúng ta biết rằng giá trị tối ưu là giống nhau cho và vì là hàm tăng đơn điệu cho , vì vậy chúng ta có thể viết . (Hãy nhớ rằng, chúng tôi muốn tối đa hóa khả năng , vì vậy tối ưu có nhiều .) $\theta^*$ $\log \mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\log(x)$ $x \in \mathbb{R}^+$ $\log \mathcal{L}(\theta) < \log\mathcal{L}(\theta^*)$ $\theta^*$ $\mathcal{L}(\theta^*)$

Một số nguồn bỏ qua từ entropy chéo. Rõ ràng, điều này chỉ thay đổi giá trị của , nhưng không thay đổi vị trí của tối ưu, do đó, từ góc độ tối ưu hóa, sự khác biệt không quan trọng. Tuy nhiên, dấu hiệu tiêu cực rõ ràng rất quan trọng vì đó là sự khác biệt giữa tối đa hóa và tối thiểu hóa! $\frac{1}{n}$ $L(\theta)$

— Sycorax nói phục hồi Monica
nguồn