Mất KL với một đơn vị Gaussian

10

Tôi đã triển khai VAE và tôi nhận thấy hai cách triển khai trực tuyến khác nhau về phân kỳ gaussian đơn biến đơn giản. Phân kỳ ban đầu theo ở đây là Nếu chúng tôi giả sử trước là đơn vị gaussian tức là và , điều này đơn giản hóa thành Và đây là lúc sự nhầm lẫn của tôi dừng lại. Mặc dù tôi đã tìm thấy một vài repos github tối nghĩa với cách thực hiện ở trên, nhưng điều tôi thường thấy hơn được sử dụng là:

K L_{l o s s} = \log (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{l o s s} = - \log (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K L_{l o s s} = - \frac{1}{2} (2 \log (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

= - \frac{1}{2} (\log (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Ví dụ: trong hướng dẫn bộ mã hóa tự động Keras chính thức . Câu hỏi của tôi là sau đó, tôi còn thiếu gì giữa hai điều này? Sự khác biệt chính là giảm hệ số 2 trên thuật ngữ nhật ký và không bình phương phương sai. Phân tích tôi đã sử dụng sau này với thành công, cho những gì giá trị của nó. Cảm ơn trước sự giúp đỡ nào!

— GroovyDragon
nguồn

7

Lưu ý rằng bằng cách thay thế bằng trong phương trình cuối cùng bạn khôi phục lại trước đó (tức là ). Dẫn đến tôi nghĩ rằng trong trường hợp đầu tiên, bộ mã hóa được sử dụng để dự đoán phương sai, trong khi trong lần thứ hai, nó được sử dụng để dự đoán độ lệch chuẩn. $\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

Cả hai công thức là tương đương và mục tiêu là không thay đổi.

— F. Evlangeli
nguồn

Tôi không nghĩ rằng đó có thể là trường hợp tương đương. Có, cả hai đều được giảm thiểu khi cho zero và unit . Tuy nhiên, trong phương trình ban đầu (có phương sai), hình phạt cho việc di chuyển khỏi sự thống nhất lớn hơn nhiều so với phương trình thứ hai (dựa trên độ lệch chuẩn). Hình phạt cho các biến thể trong là giống nhau cho cả hai và lỗi tái cấu trúc là như nhau, do đó, việc sử dụng phiên bản thứ hai sẽ thay đổi đáng kể tầm quan trọng tương đối của các lần khởi hành của từ sự thống nhất. Tôi đang thiếu gì?

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

— TheBamf

0

Tôi tin rằng câu trả lời là đơn giản hơn. Trong VAE, mọi người thường sử dụng phân phối chuẩn nhiều biến số, có ma trận hiệp phương sai thay vì phương sai . Điều đó có vẻ khó hiểu trong một đoạn mã nhưng có dạng mong muốn. $\Sigma$ $\sigma^2$

Tại đây, bạn có thể tìm thấy đạo hàm của phân kỳ KL cho các phân phối bình thường đa biến: Xuất phát tổn thất phân kỳ KL cho VAEs

— Dmitry Grebenyuk
nguồn