Xu hướng hoạt động trên mỗi nơ-ron ảo, do đó không có giá trị trong việc có nhiều đầu vào sai lệch trong đó có một đầu ra duy nhất - tương đương với việc chỉ cộng các trọng số sai lệch khác nhau vào một thiên vị.
Trong các bản đồ đặc trưng là đầu ra của lớp ẩn đầu tiên, các màu không còn được giữ riêng *. Thực tế, mỗi bản đồ tính năng là một "kênh" trong lớp tiếp theo, mặc dù chúng thường được hiển thị riêng biệt trong đó đầu vào được trực quan hóa với các kênh kết hợp. Một cách nghĩ khác về điều này là các kênh RGB riêng biệt trong ảnh gốc là 3 "bản đồ đặc trưng" trong đầu vào.
Không quan trọng có bao nhiêu kênh hoặc tính năng trong một lớp trước, đầu ra cho mỗi bản đồ tính năng trong lớp tiếp theo là một giá trị duy nhất trong bản đồ đó. Một giá trị đầu ra tương ứng với một nơron ảo duy nhất, cần một trọng số sai lệch.
Trong CNN, như bạn giải thích trong câu hỏi, các trọng số tương tự (bao gồm cả trọng số sai lệch) được chia sẻ tại mỗi điểm trong bản đồ tính năng đầu ra. Vì vậy, mỗi bản đồ tính năng có trọng số sai lệch cũng như previous_layer_num_features x kernel_width x kernel_height
trọng lượng kết nối.
Vì vậy, có, ví dụ của bạn dẫn đến (3 x (5x5) + 1) x 32
tổng trọng số cho lớp đầu tiên là chính xác cho một CNN với lớp ẩn đầu tiên xử lý đầu vào RGB thành 32 bản đồ tính năng riêng biệt.
* Bạn có thể bị nhầm lẫn khi thấy trực quan hóa các trọng số CNN có thể được tách thành các kênh màu mà chúng hoạt động.