Hessian của chức năng hậu cần

Tôi gặp khó khăn để lấy được Hessian của hàm mục tiêu, $l(\theta)$ , trong hồi quy logistic nơi $l(\theta)$ là:

l (θ) = \sum_{i = 1}^{m} [y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))]

$l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right]$

$h_\theta(x)$ là một hàm logistic. Các Hessian là $X^T D X$ . Tôi cố gắng để lấy được nó bằng cách tính toán $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ , nhưng sau đó nó là không rõ ràng để tôi làm thế nào để có được các ký hiệu ma trận từ $\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$ .

Có ai biết bất kỳ cách dễ dàng và dễ dàng để lấy $X^T D X$ không?

logistic

— DSKim
nguồn

bạn đã nhận được gì cho

\frac{\partial^{2} l}{\partial θ_{i} \partial θ_{j}}

$\frac{\partial^2 l}{\partial \theta_i \partial \theta_j}$ ?

— Glen_b -Reinstate Monica

Dưới đây là một bộ slide tốt cho thấy tính toán chính xác mà bạn đang tìm kiếm: sites.stat.psu.edu/~jiali/cference/stat597e/notes2/logit.pdf

Tôi tìm thấy một video tuyệt vời tính toán từng bước của Hessian. Hồi quy logistic (nhị phân) - tính toán Hessian

— Naomi

Ở đây tôi rút ra tất cả các thuộc tính và danh tính cần thiết để giải pháp được khép kín, nhưng ngoài ra, dẫn xuất này là sạch sẽ và dễ dàng. Hãy để chúng tôi chính thức hóa ký hiệu của chúng tôi và viết hàm mất mát gọn hơn một chút. Xem xét $m$ mẫu $\{x_i,y_i\}$ mà $x_i\in\mathbb{R}^d$ và $y_i\in\mathbb{R}$ . Hãy nhớ lại rằng trong hồi quy logistic nhị phân, chúng ta thường có hàm giả thuyết $h_\theta$ là hàm logistic. Chính thức

h_{θ} (x_{i}) = σ (ω^{T} x_{i}) = σ (z_{i}) = \frac{1}{1 + e^{- z_{i}}},

$h_\theta(x_i)=\sigma(\omega^Tx_i)=\sigma(z_i)=\frac{1}{1+e^{-z_i}},$

trong đó $\omega\in\mathbb{R}^d$ và $z_i=\omega^Tx_i$ . Hàm mất (mà tôi tin là OP thiếu dấu âm) sau đó được định nghĩa là:

l (ω) = \sum_{i = 1}^{m} - (y_{i} \log σ (z_{i}) + (1 - y_{i}) \log (1 - σ (z_{i})))

$l(\omega)=\sum_{i=1}^m -\Big( y_i\log\sigma(z_i)+(1-y_i)\log(1-\sigma(z_i))\Big)$

Có hai thuộc tính quan trọng của hàm logistic mà tôi lấy ở đây để tham khảo trong tương lai. Đầu tiên, lưu ý rằng $1-\sigma(z)=1-1/(1+e^{-z})=e^{-z}/(1+e^{-z})=1/(1+e^z)=\sigma(-z)$ .

Cũng lưu ý rằng

\begin{aligned} \frac{\partial}{\partial z} σ (z) = \frac{\partial}{\partial z} (1 + e^{- z})^{- 1} = e^{- z} (1 + e^{- z})^{- 2} & = \frac{1}{1 + e^{- z}} \frac{e^{- z}}{1 + e^{- z}} = σ (z) (1 - σ (z)) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial}{\partial z}\sigma(z)=\frac{\partial}{\partial z}(1+e^{-z})^{-1}=e^{-z}(1+e^{-z})^{-2}&=\frac{1}{1+e^{-z}}\frac{e^{-z}}{1+e^{-z}} =\sigma(z)(1-\sigma(z)) \end{aligned} \end{equation}$

Instead of taking derivatives with respect to components, here we will work directly with vectors (you can review derivatives with vectors here). The Hessian of the loss function $l(\omega)$ is given by $\vec{\nabla}^2l(\omega)$ , but first recall that $\frac{\partial z}{\partial \omega} = \frac{x^T\omega}{\partial \omega}=x^T$ and $\frac{\partial z}{\partial \omega^T}=\frac{\partial \omega^Tx}{\partial \omega ^T} = x$ .

Let $l_i(\omega)=-y_i\log\sigma(z_i)-(1-y_i)\log(1-\sigma(z_i))$ . Using the properties we derived above and the chain rule

\begin{aligned} \frac{\partial \log σ (z_{i})}{\partial ω^{T}} & = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial ω^{T}} = \frac{1}{σ (z_{i})} \frac{\partial σ (z_{i})}{\partial z_{i}} \frac{\partial z_{i}}{\partial ω^{T}} = (1 - σ (z_{i})) x_{i} \\ \frac{\partial \log (1 - σ (z_{i}))}{\partial ω^{T}} & = \frac{1}{1 - σ (z_{i})} \frac{\partial (1 - σ (z_{i}))}{\partial ω^{T}} = - σ (z_{i}) x_{i} \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial \log\sigma(z_i)}{\partial \omega^T} &= \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial \omega^T} = \frac{1}{\sigma(z_i)}\frac{\partial\sigma(z_i)}{\partial z_i}\frac{\partial z_i}{\partial \omega^T}=(1-\sigma(z_i))x_i\\ \frac{\partial \log(1-\sigma(z_i))}{\partial \omega^T}&= \frac{1}{1-\sigma(z_i)}\frac{\partial(1-\sigma(z_i))}{\partial \omega^T} =-\sigma(z_i)x_i \end{aligned} \end{equation}$

It's now trivial to show that

\vec{\nabla} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω^{T}} = - y_{i} x_{i} (1 - σ (z_{i})) + (1 - y_{i}) x_{i} σ (z_{i}) = x_{i} (σ (z_{i}) - y_{i})

$\vec{\nabla}l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega^T} =-y_ix_i(1-\sigma(z_i))+(1-y_i)x_i\sigma(z_i)=x_i(\sigma(z_i)-y_i)$

whew!

Our last step is to compute the Hessian

{\vec{\nabla}}^{2} l_{i} (ω) = \frac{\partial l_{i} (ω)}{\partial ω \partial ω^{T}} = x_{i} x_{i}^{T} σ (z_{i}) (1 - σ (z_{i}))

$\vec{\nabla}^2l_i(\omega)=\frac{\partial l_i(\omega)}{\partial \omega\partial \omega^T}=x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$

For $m$ samples we have $\vec{\nabla}^2l(\omega)=\sum_{i=1}^m x_ix_i^T\sigma(z_i)(1-\sigma(z_i))$ . This is equivalent to concatenating column vectors $x_i\in\mathbb{R}^d$ into a matrix $X$ of size $d\times m$ such that $\sum_{i=1}^m x_ix_i^T=XX^T$ . The scalar terms are combined in a diagonal matrix $D$ such that $D_{ii}=\sigma(z_i)(1-\sigma(z_i))$ . Finally, we conclude that

\vec{H} (ω) = {\vec{\nabla}}^{2} l (ω) = X D X^{T}

$\vec{H}(\omega)=\vec{\nabla}^2l(\omega)=XDX^T$

A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show that $l(\omega)$ is convex. Let $\delta$ be any vector such that $\delta\in\mathbb{R}^d$ . Then

δ^{T} \vec{H} (ω) δ = δ^{T} {\vec{\nabla}}^{2} l (ω) δ = δ^{T} X D X^{T} δ = δ^{T} X D (δ^{T} X)^{T} = ‖ δ^{T} D X ‖^{2} \geq 0

$\delta^T\vec{H}(\omega)\delta = \delta^T\vec{\nabla}^2l(\omega)\delta = \delta^TXDX^T\delta = \delta^TXD(\delta^TX)^T = \|\delta^TDX\|^2\geq 0$

since $D>0$ and $\|\delta^TX\|\geq 0$ . This implies $H$ is positive-semidefinite and therefore $l$ is convex (but not strongly convex).

— Manuel Morales
nguồn

In the last equation, shouldn't it be

| | δ D^{1 / 2} X | |

$||\delta D^{1/2}X||$ since

X D X^{⊤}

$XDX^\top$ =

X D^{1 / 2} (X D^{1 / 2})^{⊤}

$XD^{1/2}(XD^{1/2})^\top$ ?

— appletree

Shouldn't it be

X^{T} D X

$X^T D X$ ?

— Chintan Shah