Làm thế nào các hạt nhân được áp dụng cho các bản đồ đặc trưng để tạo ra các bản đồ tính năng khác?

44

Tôi đang cố gắng để hiểu phần tích chập của mạng nơ ron tích chập. Nhìn vào hình sau:

nhập mô tả hình ảnh ở đây

Tôi không có vấn đề gì trong việc hiểu lớp chập đầu tiên trong đó chúng ta có 4 hạt nhân khác nhau (có kích thước ), chúng ta kết hợp với hình ảnh đầu vào để có được 4 bản đồ đặc trưng. $k \times k$

Điều tôi không hiểu là lớp tích chập tiếp theo, nơi chúng ta đi từ 4 bản đồ đặc trưng đến 6 bản đồ đặc trưng. Tôi giả sử chúng ta có 6 hạt nhân trong lớp này (do đó đưa ra 6 bản đồ tính năng đầu ra), nhưng làm thế nào để các hạt nhân này hoạt động trên 4 bản đồ tính năng được hiển thị trong C1? Là các hạt nhân 3 chiều, hay chúng là 2 chiều và được nhân rộng trên 4 bản đồ tính năng đầu vào?

— vô tư
nguồn

1

Tôi bị mắc kẹt ở cùng một nơi. Không may là bài báo của Yann Lecun-s cũng không giải thích điều đó - tôi đã xem qua một số tệp pdf và video trong vài ngày qua và mọi người dường như bỏ qua phần đó. Bài báo của Yann Lecun thực sự nói về 6 đến 16 bản đồ đặc trưng với bảng ánh xạ ở lớp 2. Bản đồ tính năng đầu ra đầu tiên được nhập từ 0,1,2 bản đồ tính năng đầu vào. Nhưng bản đồ tính năng đầu ra đó là 10 x 10, 3 bản đồ tính năng đầu vào là 14 x 14. Vậy nó hoạt động như thế nào? Bạn đã hiểu những gì đang xảy ra? Nó có phải là hạt nhân 3 chiều không? hoặc là trung bình các đầu ra từ vị trí * kernel (tích chập)?

— Run2

18

Các hạt nhân là 3 chiều, trong đó chiều rộng và chiều cao có thể được chọn, trong khi độ sâu bằng với số lượng bản đồ trong lớp đầu vào - nói chung.

Chúng chắc chắn không phải là 2 chiều và được nhân rộng trên các bản đồ tính năng đầu vào tại cùng một vị trí 2D! Điều đó có nghĩa là một hạt nhân sẽ không thể phân biệt giữa các tính năng đầu vào của nó tại một vị trí nhất định, vì nó sẽ sử dụng một và cùng trọng lượng trên các bản đồ tính năng đầu vào!

— Thiên thần
nguồn

5

Không nhất thiết phải có sự tương ứng một-một giữa các lớp và hạt nhân. Điều đó phụ thuộc vào kiến trúc cụ thể. Hình bạn đã đăng cho thấy rằng trong các lớp S2, bạn có 6 bản đồ tính năng, mỗi bản đồ kết hợp tất cả các bản đồ tính năng của các lớp trước đó, nghĩa là các kết hợp tính năng có thể khác nhau.

Không có nhiều tài liệu tham khảo tôi không thể nói nhiều hơn nữa. Xem ví dụ bài báo này

— chiều
nguồn

Tôi đang xem xét cụ thể về LeNet-5 và sử dụng deeplearning.net/tutorial/lenet.html này làm tài liệu tham khảo của tôi. Có vẻ như từ trang đó, các hạt nhân là 3 chiều, nhưng nó không rõ ràng 100% với tôi.

— utdiscant

2

Bạn cần đọc bài viết này sau đó ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). Trên trang 8, nó được mô tả cách các lớp khác nhau được kết nối. Như tôi đã nói, lớp từng tính năng ở lớp kết hợp một số tính năng từ lớp trước đó tại cùng một vị trí.

— jpmuc

2

Liên kết đã chết.

— Tháng Bảy

2

Bảng 1 và Mục 2a của "Học tập dựa trên độ dốc được áp dụng cho nhận dạng tài liệu" của Yann LeCun giải thích điều này: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Không phải tất cả các vùng của phép tích chập 5x5 đều được Được sử dụng để tạo lớp chập thứ 2.

— Travis Desell
nguồn

0

Bài viết này có thể hữu ích: Tìm hiểu về Convolution trong Deep Learning của Tim Dettmers từ ngày 26 tháng 3

Nó không thực sự trả lời câu hỏi vì nó chỉ giải thích lớp chập đầu tiên, nhưng chứa lời giải thích tốt về trực giác cơ bản về tích chập trong CNN. Nó cũng mô tả định nghĩa toán học sâu hơn về tích chập. Tôi nghĩ rằng nó có liên quan đến chủ đề câu hỏi.

— Anatoly Vasilyev
nguồn

1

Chào mừng đến với trang web. Chúng tôi đang cố gắng xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Vì vậy, chúng tôi cảnh giác với các câu trả lời chỉ liên kết, do linkrot. Bạn có thể đăng một trích dẫn đầy đủ và một bản tóm tắt các thông tin tại liên kết, trong trường hợp nó bị chết?

— gung - Tái lập Monica

@gung, cảm ơn bạn đã thông báo, xin lỗi vì đã hiểu sai các khái niệm. Tình huống là: bài viết này không thực sự trả lời câu hỏi, nhưng khi tôi tìm kiếm trực giác cơ bản về CNN, tôi đã tìm thấy câu hỏi này và tôi hy vọng sẽ giúp với bài viết này cho một người cũng tìm kiếm trực giác cơ bản và có câu hỏi này. Ok, tốt hơn để xóa nó, có? Cảm ơn bạn.

— Anatoly Vasilyev

Tôi nghĩ sẽ ổn khi nói, 'bài viết này có thể đóng vai trò là thức ăn cho suy nghĩ, nhưng không hoàn toàn trả lời câu hỏi', hoặc đại loại như thế. Cũng có thể có giá trị ở đây. Chỉ cần đưa ra một trích dẫn đầy đủ, và đưa ra một bản tóm tắt các thông tin có trong trường hợp liên kết bị chết.

— gung - Phục hồi Monica

Cảm ơn các thông tin thêm. Bạn có thể cung cấp một trích dẫn đầy đủ cho bài báo (tác giả, năm, tiêu đề, tạp chí, vv) và một bản tóm tắt nội dung của nó?

— gung - Tái lập Monica

@gung vâng, tất nhiên rồi. Nhưng có vẻ như bài viết này chỉ có trong blog này, vì vậy tôi không thể tìm thấy bất kỳ thông tin hữu ích nào khác về nó. Cảm ơn bạn đã làm rõ quan điểm của tôi

— Anatoly Vasilyev