Thủ thuật tái thông số cho VAE hoạt động như thế nào và tại sao nó quan trọng?

57

Làm thế nào để lừa reparameterization cho autoencoders biến phân (VAE) làm việc? Có một lời giải thích trực quan và dễ dàng mà không đơn giản hóa toán học cơ bản? Và tại sao chúng ta cần 'mánh khóe'?

— David Dao
nguồn

5

Một phần của câu trả lời là lưu ý rằng tất cả các bản phân phối Bình thường chỉ là các phiên bản được thu nhỏ và dịch của Bình thường (1, 0). Để vẽ từ Bình thường (mu, sigma), bạn có thể vẽ từ Bình thường (1, 0), nhân với sigma (tỷ lệ) và thêm mu (dịch).

— tu sĩ

@monk: đáng lẽ nó phải là Bình thường (0,1) thay vì (1,0) phải nếu không nhân và dịch chuyển sẽ hoàn toàn đi dây hay!

— Rika

@ Gió Hà! Vâng, tất nhiên, cảm ơn.

— nhà sư

57

Sau khi đọc qua các slide hội thảo NIPS 2015 của Kingma , tôi nhận ra rằng chúng ta cần thủ thuật xác định lại thông số để sao lưu thông qua một nút ngẫu nhiên.

Theo trực giác, ở dạng ban đầu, mẫu VAE từ một nút ngẫu nhiên $z$ được xấp xỉ bởi mô hình tham số $q(z \mid \phi, x)$ của hậu thế thật. Backprop không thể chảy qua một nút ngẫu nhiên.

Giới thiệu một tham số mới $\epsilon$ cho phép chúng ta reparameterize $z$ trong một cách mà cho phép backprop chảy qua các nút xác định.

— David Dao
nguồn

3

Tại sao bây giờ

xác định ở bên phải?

z

$z$

— bringingdownthegauss

2

Nó không phải, nhưng nó không phải là một "nguồn gốc của tính ngẫu nhiên" - vai trò này đã được thực hiện trên của

.

ϵ

$\epsilon$

— quant_dev

Lưu ý rằng phương pháp này đã được đề xuất nhiều lần trước năm 2014: blog.shakirm.com/2015/10/ trên

— quant_dev

2

Thật đơn giản, thật trực quan! Câu trả lời chính xác!

— Serhiy

2

Thật không may, nó không phải là. Hình thức ban đầu vẫn có thể được sao lưu, tuy nhiên với phương sai cao hơn. Thông tin chi tiết có thể được tìm thấy từ bài viết của tôi .

— JP Zhang

56

Giả sử chúng ta có một phân phối chuẩn được tham số hóa bởi , đặc biệt là . Chúng tôi muốn giải quyết vấn đề dưới đây $q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$ Đây là khóa học một vấn đề khá ngớ ngẩn và tối ưu là rõ ràng. Tuy nhiên, ở đây chúng tôi chỉ muốn hiểu làm thế nào thủ thuật tái tham số hóa giúp tính toán độ dốc của mục tiêu này .

{tối thiểu}_{θ} E_{q} [x^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

Một cách để tính toán như sau $\nabla_{\theta} E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = = \nabla_{θ} \int q_{θ} (x) x^{2} Cười mở miệng x = = \int x^{2} \nabla_{θ} q_{θ} (x) \frac{q_{θ} (x)}{q_{θ} (x)} Cười mở miệng x = = \int q_{θ} (x) \nabla_{θ} đăng nhập q_{θ} (x) x^{2} Cười mở miệng x = = E_{q} [x^{2} \nabla_{θ} đăng nhập q_{θ} (x)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

Ví dụ chúng tôi, nơi , phương pháp này mang lại cho $q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} E_{q} [x^{2}] = = E_{q} [x^{2} (x - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

Reparameterization Bí quyết là một cách để ghi lại sự mong đợi để phân phối liên quan đến mà chúng tôi đưa gradient không phụ thuộc vào tham số . Để đạt được điều này, chúng ta cần phải thực hiện các yếu tố ngẫu nhiên trong không phụ thuộc vào . Do đó, chúng ta viết là $\theta$ $q$ $\theta$ $x$ Sau đó, chúng ta có thể viết nơi là sự phân bố của , tức là . Bây giờ chúng ta có thể viết các dẫn xuất của như sau

x = = θ + ε, ε ~ VIẾT SAI RỒI (0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

E_{q} [x^{2}] = = E_{p} [(θ + ε)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = = \nabla_{θ} E_{p} [(θ + ε)^{2}] = = E_{p} [2 (θ + ε)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Dưới đây là một máy tính xách tay IPython tôi đã viết mà xem xét phương sai của hai cách tính độ dốc này. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

— người hút thuốc
nguồn

4

Theta "rõ ràng" cho phương trình đầu tiên là gì?

— gwg

2

đó là 0. một cách để thấy đó là lưu ý rằng E [x ^ 2] = E [x] ^ 2 + Var (x), đó là theta ^ 2 + 1 trong trường hợp này. Vì vậy, theta = 0 giảm thiểu mục tiêu này.

— Goker

Vì vậy, nó phụ thuộc hoàn toàn vào vấn đề? Giả sử min_ \ theta E_q [| x | ^ (1/4)] nó có thể hoàn toàn khác nhau?

— Anne van Rossum

Điều gì phụ thuộc vào vấn đề? Theta tối ưu? Nếu vậy, có chắc chắn nó phụ thuộc vào vấn đề.

— Goker

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

Một ví dụ hợp lý về toán học của "mẹo tái tham số hóa" được đưa ra trong câu trả lời của goker, nhưng một số động lực có thể hữu ích. (Tôi không có quyền nhận xét về câu trả lời đó; vì vậy đây là một câu trả lời riêng.)

$G_\theta$

G_{θ} = = \nabla_{θ} E_{x ~ q_{θ}} [Giáo dục]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

G_{θ}^{e S t} (x) = = Giáo dục \frac{1}{q_{θ} (x)} \nabla_{θ} q_{θ} (x) = = Giáo dục \nabla_{θ} đăng nhập (q_{θ} (x))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ , có thể cách xa tối ưu (ví dụ: giá trị ban đầu được chọn tùy ý). Nó giống như câu chuyện về người say rượu tìm chìa khóa gần đèn đường (vì đó là nơi anh ta có thể nhìn thấy / mẫu) chứ không phải gần nơi anh ta đánh rơi chúng.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

G_{θ} = = \nabla_{θ} E_{ε ~ p} [J (θ, ε)] = = E_{ε ~ p} [\nabla_{θ} J (θ, ε)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

Tôi hy vọng điều đó sẽ giúp.

— Seth Bruder
nguồn

"Hệ số 1 / qθ (x) đang tăng tỷ lệ ước tính của bạn để tính đến điều này, nhưng nếu bạn không bao giờ thấy giá trị của x như vậy, thì tỷ lệ đó sẽ không giúp ích gì." Bạn có thể giải thích thêm?

— czxttkl

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Hãy để tôi giải thích trước, tại sao chúng ta cần thủ thuật Xác định lại trong VAE.

VAE có bộ mã hóa và giải mã. Bộ giải mã lấy mẫu ngẫu nhiên từ hậu thế thật Z ~ q (z∣ϕ, x) . Để thực hiện bộ mã hóa và bộ giải mã như một mạng nơ ron, bạn cần sao lưu thông qua lấy mẫu ngẫu nhiên và đó là vấn đề bởi vì backpropogation không thể chảy qua nút ngẫu nhiên; để vượt qua trở ngại này, chúng tôi sử dụng thủ thuật tái thông số.

Bây giờ hãy đến để lừa. Vì hậu thế của chúng ta thường được phân phối, chúng ta có thể ước chừng nó với một phân phối bình thường khác. Chúng tôi xấp xỉ Z với phân phối chuẩn ε .

Nhưng làm thế nào điều này có liên quan?

Bây giờ thay vì nói rằng Z được lấy mẫu từ q (z∣ϕ, x) , chúng ta có thể nói Z là một hàm lấy tham số (ε, (Biệt, L)) và các Lọ, L đến từ mạng thần kinh trên (bộ mã hóa) . Vì vậy trong khi backpropogation tất cả chúng ta cần là hàm riêng wrt μ, L và ε là không thích hợp cho việc dẫn xuất.

— Sherlock
nguồn

Video tốt nhất để hiểu khái niệm này. Tôi khuyên bạn nên xem video hoàn chỉnh để hiểu rõ hơn nhưng nếu bạn chỉ muốn hiểu thủ thuật xác định lại thông số thì hãy xem từ 8 phút. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

— Sherlock

9

Tôi nghĩ rằng lời giải thích được tìm thấy trong khóa học Stanford CS228 về các mô hình đồ họa xác suất là rất tốt. Nó có thể được tìm thấy ở đây: https://ermongroup.github.io/cs228-notes/extras/vae/

Tôi đã tóm tắt / sao chép các phần quan trọng ở đây để thuận tiện / hiểu biết của riêng tôi (mặc dù tôi thực sự khuyên bạn chỉ nên kiểm tra liên kết ban đầu).

\nabla_{φ} E_{z ~ q (z | x)} [đụ (x, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Nếu bạn quen thuộc với các công cụ ước tính điểm số (tôi tin rằng REINFORCE chỉ là trường hợp đặc biệt của vấn đề này), bạn sẽ nhận thấy đó là vấn đề mà họ giải quyết được khá nhiều. Tuy nhiên, công cụ ước tính điểm số có phương sai cao, dẫn đến khó khăn trong việc học các mô hình phần lớn thời gian.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Ví dụ, chúng ta hãy sử dụng một q rất đơn giản mà chúng ta lấy mẫu.

z ~ q_{μ, σ} = = VIẾT SAI RỒI (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = = g_{μ, σ} (ε) = = μ + ε \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{φ} E_{z ~ q (z | x)} [đụ (x, z)] = = E_{ε ~ p (ε)} [\nabla_{φ} đụ (x, g (ε, x))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Điều này có phương sai thấp hơn, vì imo, lý do không tầm thường. Kiểm tra phần D của phụ lục tại đây để được giải thích: https://arxiv.org/pdf/1401.4082.pdf

— ghê gớm anh
nguồn

Xin chào, bạn có biết, tại sao trong quá trình thực hiện, họ chia std cho 2? (tức là std = Torch.bao (z_var / 2)) trong việc xác định lại thông số?

— Rika

4

Chúng tôi có mô hình xác suất của chúng tôi. Và muốn phục hồi các thông số của mô hình. Chúng tôi giảm bớt nhiệm vụ của mình để tối ưu hóa giới hạn dưới biến đổi (VLB). Để làm điều này, chúng ta sẽ có thể làm hai điều:

tính toán VLB
lấy độ dốc của VLB

Các tác giả đề nghị sử dụng Công cụ ước tính Monte Carlo cho cả hai. Và thực tế họ giới thiệu thủ thuật này để có được Công cụ ước tính độ chính xác Monte Carlo Gradient của VLB.

Đó chỉ là cải tiến của phương pháp số.

— Anton
nguồn

2

Thủ thuật xác định lại thông số làm giảm đáng kể phương sai của công cụ ước tính MC cho độ dốc. Vì vậy, đó là một kỹ thuật giảm phương sai :

\nabla_{φ} E_{q (z^{(Tôi)} | x^{(Tôi)}; φ)} [đăng nhập p (x^{(Tôi)} | z^{(Tôi)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{φ} E_{q (z^{(Tôi)} | x^{(Tôi)}; φ)} [đăng nhập p (x^{(Tôi)} | z^{(Tôi)}, w)] = = E_{q (z^{(Tôi)} | x^{(Tôi)}; φ)} [đăng nhập p (x^{(Tôi)} | z^{(Tôi)}, w) \nabla_{φ} đăng nhập q_{φ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ là rất lớn và bản thân giá trị là âm. Vì vậy, chúng tôi sẽ có phương sai cao.

$z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{φ} E_{q (z^{(Tôi)} | x^{(Tôi)}; φ)} [đăng nhập p (x^{(Tôi)} | z^{(Tôi)}, w)] = = E_{p (ε^{(Tôi)})} [\nabla_{φ} đăng nhập p (x^{(Tôi)} | g (ε^{(Tôi)}, x^{(Tôi)}, φ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

— chris elgoog
nguồn