Tại sao sqrt (6) được sử dụng để tính toán epsilon để khởi tạo ngẫu nhiên các mạng thần kinh?


8

Trong tuần 5 ghi chú bài giảng cho Lớp học máy Coursera của Andrew Ng , công thức sau đây được đưa ra để tính giá trị của được sử dụng để khởi tạo với các giá trị ngẫu nhiên:ΘϵΘ

Forumla để tính toán epsilon-init để khởi tạo ngẫu nhiên

Trong bài tập , làm rõ thêm được đưa ra:

Một chiến lược hiệu quả để chọn là dựa trên số lượng đơn vị trong mạng. Một lựa chọn tốt của là , trong đó và là số lượng đơn vị trong các lớp liền kề với . ε i n i t ε i n i t = ϵinitϵinit Lin=slLout=sl+1Θ(l)ϵinit=6LinLoutLin=slLout=sl+1Θ(l)

Tại sao hằng số được sử dụng ở đây? Tại sao không , hoặc ?6576.1

Câu trả lời:


4

Tôi tin rằng đây là khởi tạo chuẩn hóa Xavier (được triển khai trong một số khung học tập sâu, ví dụ như Keras, Cafe, ...) từ Tìm hiểu về khó khăn trong việc đào tạo mạng lưới thần kinh ăn sâu của Xavier Glorot & Yoshua Bengio.

Xem các phương trình 12, 15 và 16 trong bài báo được liên kết: chúng nhằm thỏa mãn phương trình 12:

Var[Wi]=2ni+ni+1

và phương sai của một bộ đồng phục RV trong ε 2 / 3 (trung bình là zero, pdf = 1 / ( 2 ε ) nên sai = ε - ε x 2 1[ϵ,ϵ]ϵ2/31/(2ϵ)=ϵϵx212ϵdx


62

Cắm epsilon vào công thức cho phương sai của biến ngẫu nhiên đồng nhất trong +/- x và bạn nhận được gì?
seanv507

[ϵ,ϵ]x2/3

1
thêm lời giải thích cho phương sai của đồng phục RV ...
seanv507
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.