Câu hỏi về sự thiên vị trong Mạng kết hợp


11

Tôi đang cố gắng tìm hiểu có bao nhiêu trọng lượng và thành kiến ​​cần thiết cho CNN.

Giả sử tôi có hình ảnh (3, 32, 32) và muốn áp dụng bộ lọc (32, 5, 5). Đối với mỗi bản đồ tính năng tôi có trọng lượng 5x5, vì vậy tôi nên có 3 tham số (5x5) x 32. Bây giờ tôi cần thêm sự thiên vị. Tôi tin rằng tôi chỉ có (3 x (5x5) + 1) x 32 tham số, vậy độ lệch có giống nhau trên tất cả các màu (RGB) không?

Điều này có đúng không? Tôi có giữ cùng một độ lệch cho mỗi hình ảnh theo chiều sâu của nó (trong trường hợp này là 3) trong khi tôi sử dụng các trọng lượng khác nhau không? Tại sao vậy?

Câu trả lời:


6

Xu hướng hoạt động trên mỗi nơ-ron ảo, do đó không có giá trị trong việc có nhiều đầu vào sai lệch trong đó có một đầu ra duy nhất - tương đương với việc chỉ cộng các trọng số sai lệch khác nhau vào một thiên vị.

Trong các bản đồ đặc trưng là đầu ra của lớp ẩn đầu tiên, các màu không còn được giữ riêng *. Thực tế, mỗi bản đồ tính năng là một "kênh" trong lớp tiếp theo, mặc dù chúng thường được hiển thị riêng biệt trong đó đầu vào được trực quan hóa với các kênh kết hợp. Một cách nghĩ khác về điều này là các kênh RGB riêng biệt trong ảnh gốc là 3 "bản đồ đặc trưng" trong đầu vào.

Không quan trọng có bao nhiêu kênh hoặc tính năng trong một lớp trước, đầu ra cho mỗi bản đồ tính năng trong lớp tiếp theo là một giá trị duy nhất trong bản đồ đó. Một giá trị đầu ra tương ứng với một nơron ảo duy nhất, cần một trọng số sai lệch.

Trong CNN, như bạn giải thích trong câu hỏi, các trọng số tương tự (bao gồm cả trọng số sai lệch) được chia sẻ tại mỗi điểm trong bản đồ tính năng đầu ra. Vì vậy, mỗi bản đồ tính năng có trọng số sai lệch cũng như previous_layer_num_features x kernel_width x kernel_heighttrọng lượng kết nối.

Vì vậy, có, ví dụ của bạn dẫn đến (3 x (5x5) + 1) x 32tổng trọng số cho lớp đầu tiên là chính xác cho một CNN với lớp ẩn đầu tiên xử lý đầu vào RGB thành 32 bản đồ tính năng riêng biệt.


* Bạn có thể bị nhầm lẫn khi thấy trực quan hóa các trọng số CNN có thể được tách thành các kênh màu mà chúng hoạt động.


Tôi nghĩ rằng có một sai lệch cho mỗi bộ lọc ... chúng ta có định nghĩa khác nhau về các nơ-ron ảo không?
Charlie Parker

@CharlieParker Xét về số lượng tham số, một độ lệch trên mỗi bộ lọc giống như một độ lệch trên mỗi nơron. Có một số cách tương đương để xem kiến ​​trúc của bản đồ tính năng CNN. Một lớp sẽ là lớp "mở rộng hoàn toàn" với số lượng lớn tế bào thần kinh, tất cả đều có chung thông số. Một cách khác là nghĩ về mỗi bộ lọc tích chập như mô tả các kết nối cục bộ của một nơron và lớp này liên tục sử dụng cùng một nơron. Vì vậy, tôi nghĩ rằng chúng ta có thể có cùng định nghĩa về một nơron, nhưng câu trả lời mô tả mọi thứ chỉ từ một quan điểm.
Neil Slater

Thật thú vị, tôi đoán bạn nghĩ về từng nơ-ron cho mỗi bộ lọc, tôi đã suy nghĩ vì một số lý do mỗi lần kích hoạt cho mỗi nơ-ron, nhưng bộ lọc kích hoạt ở nhiều vị trí trong hình ảnh nên dĩ nhiên tôi có nhiều đầu nơ-ron hơn.
Charlie Parker

1

Thuộc tính của CNN là họ sử dụng các trọng số và thành kiến ​​chung (cùng trọng số và sai lệch cho tất cả các nơ-ron ẩn trong một lớp) để phát hiện cùng một tính năng. Điều này dẫn đến việc học sâu hơn so với các mạng thần kinh đơn giản. Bạn có thể đọc nó ra như một tài liệu tham khảo:

http://deeplearning.net/tutorial/lenet.html
http://neuralnetworksanddeeplearning.com/chap6.html#int sinhing_convolutional_networks


Tôi đang hỏi một câu hỏi khác. Câu hỏi của tôi là về sự thiên vị. Từ công thức, có vẻ như đối với mỗi bản đồ tính năng có các trọng số khác nhau, nhưng cùng một độ lệch được sử dụng trên tất cả các bản đồ tính năng.
người dùng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.