Sự khác biệt giữa bộ lọc hạt nhân ăn ý và bộ lọc trên mạng CNN

37

Sự khác biệt giữa các thuật ngữ "hạt nhân" và "bộ lọc" trong bối cảnh của các mạng thần kinh tích chập là gì?

— ryguy
nguồn

5

Họ giống nhau! Bộ lọc hoặc kernel là nhóm trọng số đơn giản được chia sẻ trên toàn bộ không gian đầu vào.

— yasin.yazici

42

Trong ngữ cảnh của các mạng nơ ron tích chập, kernel = filter = Feature dò.

Đây là một minh họa tuyệt vời từ hướng dẫn học tập sâu của Stanford (cũng được giải thích độc đáo bởi Denny Britz ).

Bộ lọc là cửa sổ trượt màu vàng và giá trị của nó là:

[\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$

— Franck Dernoncourt
nguồn

2

Có một tên cụ thể cho bộ lọc? Giống như "Làm mờ" hoặc "Phát hiện cạnh"

— Pratik Khadloya

2

@PratikKhadloya không, những cái tên đó được các nhà nghiên cứu đưa ra một cách chủ quan dựa trên những gì bộ lọc dường như đang phát hiện.

— Shadowtalker

1

@Frank Dernoncourt theo liên kết này hướng tớidatascience.com / Họ khác nhau khi chúng tôi có một vài kênh. thực sự khi có nhiều kênh Mỗi bộ lọc thực sự là một tập hợp các hạt nhân, với một hạt nhân cho mỗi kênh đầu vào của lớp và mỗi hạt nhân là duy nhất. Tôi sẽ rất vui khi có ý tưởng của bạn

— sariii

6

Bản đồ tính năng giống như bộ lọc hoặc "kernel" trong ngữ cảnh cụ thể này. Các trọng số của bộ lọc xác định những tính năng cụ thể được phát hiện.

Vì vậy, ví dụ, Franck đã cung cấp một hình ảnh tuyệt vời. Lưu ý rằng bộ lọc / trình phát hiện tính năng của anh ta có x1 dọc theo các phần tử đường chéo và x0 dọc theo tất cả các phần tử khác. Do đó, trọng số hạt nhân này sẽ phát hiện các pixel trong ảnh có giá trị 1 dọc theo các đường chéo của ảnh.

Quan sát rằng tính năng được tích hợp kết quả hiển thị các giá trị 4 ở bất cứ nơi nào hình ảnh có "1" dọc theo các giá trị đường chéo của bộ lọc 3x3 (do đó phát hiện bộ lọc trong phần 3x3 cụ thể của hình ảnh) và giá trị thấp hơn 2 trong các khu vực của hình ảnh trong đó bộ lọc đó không khớp với nhau.

— JohnnyUtah
nguồn

4

$k \times k \times C$ $C$ $C$ $H_{in} \times H_{in} \times C$ $32 \times 32$ Hình ảnh RGB). Thật hợp lý khi sử dụng một từ khác để mô tả một mảng trọng lượng 2D và khác nhau cho cấu trúc 3D của các trọng số, vì phép nhân xảy ra giữa các mảng 2D và sau đó kết quả được tính tổng để tính toán hoạt động 3D.

Hiện tại có một vấn đề với danh pháp trong lĩnh vực này. Có nhiều thuật ngữ mô tả cùng một điều và thậm chí các thuật ngữ được sử dụng thay thế cho các khái niệm khác nhau! Lấy một ví dụ về thuật ngữ được sử dụng để mô tả đầu ra của lớp chập: bản đồ đặc trưng, kênh, kích hoạt, tenxơ, mặt phẳng, v.v ...

Dựa trên wikipedia, "Trong xử lý ảnh, kernel, là một ma trận nhỏ".

Dựa trên wikipedia, "Ma trận là một mảng hình chữ nhật được sắp xếp theo hàng và cột".

$k_1 \times k_2 \times C$ kích thước.

Chà, tôi không thể tranh luận rằng đây là thuật ngữ tốt nhất , nhưng tốt hơn là chỉ sử dụng thuật ngữ "kernel" và "filter" thay thế cho nhau. Hơn nữa, chúng ta cần một từ để mô tả khái niệm về các mảng 2D riêng biệt tạo thành bộ lọc.

— Jim
nguồn

1

Các câu trả lời hiện có là tuyệt vời và trả lời toàn diện câu hỏi. Chỉ muốn thêm rằng các bộ lọc trong các mạng Convolutional được chia sẻ trên toàn bộ hình ảnh (nghĩa là đầu vào được kết hợp với bộ lọc, như được hiển thị trong câu trả lời của Franck). Các lĩnh vực tiếp nhận của một tế bào thần kinh đặc biệt là tất cả các đơn vị đầu vào có ảnh hưởng đến tế bào thần kinh trong câu hỏi. Trường tiếp nhận của một nơ-ron trong mạng Convolutional thường nhỏ hơn trường tiếp nhận của nơ-ron trong mạng Dense nhờ các bộ lọc dùng chung (còn gọi là chia sẻ tham số ).

Chia sẻ tham số cung cấp một lợi ích nhất định trên CNN, cụ thể là một thuộc tính được gọi là tương đương với dịch thuật . Điều này có nghĩa là nếu đầu vào bị nhiễu hoặc dịch, đầu ra cũng được sửa đổi theo cách tương tự. Ian Goodfellow cung cấp một ví dụ tuyệt vời trong Sách học tập sâu về cách các học viên có thể tận dụng sự tương đương trong CNNs:

Khi xử lý dữ liệu chuỗi thời gian, điều này có nghĩa là tích chập tạo ra một loại dòng thời gian hiển thị khi các tính năng khác nhau xuất hiện trong đầu vào. Nếu chúng ta di chuyển một sự kiện sau đó trong đầu vào, thì biểu diễn chính xác của nó sẽ xuất hiện trong đầu ra, chỉ lát sau. Tương tự như với hình ảnh, tích chập tạo ra bản đồ 2 chiều về nơi xuất hiện một số tính năng nhất định trong đầu vào. Nếu chúng ta di chuyển đối tượng trong đầu vào, đại diện của nó sẽ di chuyển cùng một lượng trong đầu ra. Điều này hữu ích khi chúng ta biết rằng một số chức năng của một số lượng nhỏ các pixel lân cận rất hữu ích khi được áp dụng cho nhiều vị trí đầu vào. Ví dụ, khi xử lý hình ảnh, sẽ rất hữu ích khi phát hiện các cạnh trong lớp đầu tiên của mạng chập. Các cạnh giống nhau xuất hiện ít nhiều ở mọi nơi trong ảnh, vì vậy việc chia sẻ các tham số trên toàn bộ ảnh là điều thực tế.

— Pranav Vempati
nguồn