Trong một số hướng dẫn, tôi thấy rằng khởi tạo trọng lượng "Xavier" (bài báo: Hiểu về khó khăn trong việc đào tạo mạng lưới thần kinh tiếp liệu sâu ) là một cách hiệu quả để khởi tạo trọng số của mạng lưới thần kinh.
Đối với các lớp được kết nối đầy đủ, có một quy tắc chung trong các hướng dẫn đó:
Trong đó là phương sai của các trọng số cho một lớp, được khởi tạo với phân phối bình thường và n i n , n o u t là lượng tế bào thần kinh trong lớp cha mẹ và trong lớp hiện tại.
Có quy tắc tương tự cho các lớp chập?
Tôi đang đấu tranh để tìm ra những gì sẽ là tốt nhất để khởi tạo các trọng số của một lớp chập. Ví dụ, trong một lớp có hình dạng của các trọng số (5, 5, 3, 8)
, vì vậy kích thước hạt nhân là 5x5
, lọc ba kênh đầu vào (đầu vào RGB) và tạo 8
bản đồ tính năng ... sẽ được 3
coi là số lượng tế bào thần kinh đầu vào? Hay đúng hơn 75 = 5*5*3
, bởi vì đầu vào là 5x5
các bản vá cho mỗi kênh màu?
Tôi sẽ chấp nhận cả hai, một câu trả lời cụ thể làm rõ vấn đề hoặc một câu trả lời "chung chung" hơn giải thích quá trình chung để tìm ra sự khởi tạo đúng của các trọng số và tốt nhất là liên kết các nguồn.