Tại sao sqrt (6) được sử dụng để tính toán epsilon để khởi tạo ngẫu nhiên các mạng thần kinh?

Trong tuần 5 ghi chú bài giảng cho Lớp học máy Coursera của Andrew Ng , công thức sau đây được đưa ra để tính giá trị của được sử dụng để khởi tạo với các giá trị ngẫu nhiên: $\epsilon$ $\Theta$

Trong bài tập , làm rõ thêm được đưa ra:

Một chiến lược hiệu quả để chọn là dựa trên số lượng đơn vị trong mạng. Một lựa chọn tốt của là , trong đó và là số lượng đơn vị trong các lớp liền kề với . $\epsilon_{init}$ $\epsilon_{init}$ $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ $L_{in} = s_l$ $L_{out} = s_{l+1}$ $\Theta^{(l)}$

Tại sao hằng số được sử dụng ở đây? Tại sao không , hoặc ? $\sqrt 6$ $\sqrt 5$ $\sqrt 7$ $\sqrt {6.1}$

machine-learning neural-networks random-generation

— Tom Hale
nguồn

Tôi tin rằng đây là khởi tạo chuẩn hóa Xavier (được triển khai trong một số khung học tập sâu, ví dụ như Keras, Cafe, ...) từ Tìm hiểu về khó khăn trong việc đào tạo mạng lưới thần kinh ăn sâu của Xavier Glorot & Yoshua Bengio.

Xem các phương trình 12, 15 và 16 trong bài báo được liên kết: chúng nhằm thỏa mãn phương trình 12:

Var [W_{i}] = \frac{2}{n_{i} + n_{i + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

và phương sai của một bộ đồng phục RV trong là (trung bình là zero, pdf = nên sai $[-\epsilon,\epsilon]$ $\epsilon^2/3$ $1/(2\epsilon)$ $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

— seanv507
nguồn

\sqrt{6}

$\sqrt 6$

2

$2$

Cắm epsilon vào công thức cho phương sai của biến ngẫu nhiên đồng nhất trong +/- x và bạn nhận được gì?

— seanv507

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$

x^{2} / 3

$x^2 / 3$

thêm lời giải thích cho phương sai của đồng phục RV ...

— seanv507