Câu hỏi này tập trung vào "làm thế nào để các lớp chập hoạt động chính xác .
Giả sử tôi có một hình ảnh thang độ xám. Vì vậy, hình ảnh có một kênh. Trong lớp đầu tiên, tôi áp dụng tích chập với bộ lọc và đệm . Sau đó, tôi có một lớp chập khác với bộ lọc và bộ lọc . Tôi có bao nhiêu bản đồ?3 × 3 k 1 5 × 5 k 2
Tổ hợp loại 1
Lớp đầu tiên được thực thi. Sau đó, tôi có bản đồ tính năng (một bản đồ cho mỗi bộ lọc). Mỗi cái có kích thước . Mỗi pixel đơn lẻ được tạo bằng cách lấy pixel từ hình ảnh đầu vào được đệm.
Sau đó, lớp thứ hai được áp dụng. Mỗi bộ lọc được áp dụng riêng cho từng bản đồ tính năng . Điều này dẫn đến các bản đồ tính năng cho mọi bản đồ tính năng . Vì vậy, có các bản đồ tính năng sau lớp thứ hai. Mỗi pixel của mỗi bản đồ tính năng mới đã được tạo bằng cách lấy "pixel" của bản đồ tính năng được đệm từ trước đó.
Hệ thống phải tìm hiểu tham số.
Tổ hợp loại 2.1
Giống như trước: Lớp đầu tiên được thực thi. Sau đó, tôi có bản đồ tính năng (một bản đồ cho mỗi bộ lọc). Mỗi cái có kích thước . Mỗi pixel được tạo bằng cách lấy pixel từ hình ảnh đầu vào được đệm.
Không giống như trước: Sau đó, lớp thứ hai được áp dụng. Mỗi bộ lọc được áp dụng cho cùng một khu vực, nhưng tất cả các bản đồ tính năng từ trước đó. Điều này dẫn đến tổng số bản đồ tính năng sau khi lớp thứ hai được thực thi. Mỗi pixel của mỗi bản đồ tính năng mới đã được tạo bằng cách lấy "pixel" của bản đồ tính năng được đệm từ trước đó.
Hệ thống phải tìm hiểu tham số.
Tổ hợp loại 2.2
Giống như ở trên, nhưng thay vì có tham số cho mỗi bộ lọc phải học và được sao chép đơn giản cho các bản đồ tính năng đầu vào khác, bạn có số cần phải học.
Câu hỏi
- Là loại 1 hoặc loại 2 thường được sử dụng?
- Loại nào được sử dụng trong Alexnet ?
- Loại nào được sử dụng trong GoogLeNet ?
- Nếu bạn nói loại 1: Tại sao kết luận lại có ý nghĩa gì? Không phải họ chỉ nhân dữ liệu với một hằng số sao?
- Nếu bạn nói loại 2: Vui lòng giải thích chi phí bậc hai ("Ví dụ: trong mạng tầm nhìn sâu, nếu hai lớp chập bị xiềng xích, bất kỳ sự tăng đồng đều nào về số lượng bộ lọc của chúng sẽ dẫn đến tăng tính toán bậc hai")
Đối với tất cả các câu trả lời, xin vui lòng cung cấp một số bằng chứng (giấy tờ, sách giáo khoa, tài liệu về khung) rằng câu trả lời của bạn là chính xác.
Câu hỏi thưởng 1
Việc gộp chung luôn được áp dụng chỉ trên mỗi bản đồ tính năng hay nó cũng được thực hiện trên nhiều bản đồ tính năng?
Câu hỏi thưởng 2
Tôi tương đối chắc chắn rằng loại 1 là chính xác và tôi đã có điều gì đó không đúng với bài báo GoogLe. Nhưng cũng có một kết cấu 3D. Giả sử bạn có 1337 bản đồ tính năng có kích thước và bạn áp dụng bộ lọc . Làm thế nào để bạn trượt bộ lọc trên các bản đồ tính năng? (Trái sang phải, từ trên xuống dưới, bản đồ tính năng đầu tiên đến bản đồ tính năng cuối cùng?) Có vấn đề gì miễn là bạn làm điều đó một cách nhất quán?
Nghiên cứu của tôi
- Tôi đã đọc hai bài báo ở trên, nhưng tôi vẫn không chắc những gì được sử dụng.
- Tôi đã đọc tài liệu lasagne
- Tôi đã đọc tài liệu của theano
- Tôi đã đọc câu trả lời về Tìm hiểu mạng nơ ron tích chập (không theo tất cả các liên kết)
- Tôi đã đọc Mạng thần kinh chuyển đổi (LeNet) . Đặc biệt là hình 1 làm cho tôi tương đối chắc chắn rằng Type 2.1 là đúng. Điều này cũng phù hợp với nhận xét "chi phí bậc hai" trong GoogLe Net và với một số kinh nghiệm thực tế tôi có với Caffee.