Là một văn bản giới thiệu cho tất cả các vấn đề bạn đặt tên, tôi muốn giới thiệu cuốn sách học sâu . Nó cung cấp một cái nhìn bao quát về lĩnh vực này. Nó giải thích vai trò của từng tham số đó.
Theo tôi là rất hữu ích để đọc về một số kiến trúc phổ biến nhất (resnet, inception, alex-net), và trích xuất các ý tưởng chính dẫn đến các quyết định thiết kế. Sau khi đọc cuốn sách nói trên.
Trong giáo trình của các bài giảng mà bạn đề cập, nó được giải thích rất chi tiết về cách lớp tích chập thêm một số lượng lớn các tham số (trọng số, độ lệch) và nơ ron. Lớp này, một khi được đào tạo, nó có thể trích xuất các mẫu ý nghĩa từ hình ảnh. Đối với các lớp thấp hơn, các bộ lọc trông giống như các bộ chiết cạnh. Đối với các lớp cao hơn, những hình dạng nguyên thủy đó được kết hợp để mô tả các hình thức phức tạp hơn. Những bộ lọc này liên quan đến số lượng lớn các tham số và một vấn đề lớn về thiết kế mạng sâu trong việc làm thế nào để có thể mô tả các hình thức phức tạp mà vẫn có thể giảm số lượng tham số.
Do các pixel lân cận có tương quan mạnh (đặc biệt ở các lớp thấp nhất), nên giảm kích thước đầu ra bằng cách lấy mẫu (gộp chung) phản hồi của bộ lọc. Hai pixel càng cách xa nhau thì càng ít tương quan. Do đó, một bước tiến lớn trong lớp gộp dẫn đến mất thông tin cao. Nói một cách lỏng lẻo. Một sải chân 2 và kích thước hạt nhân 2x2 cho lớp gộp là một lựa chọn phổ biến.
Một cách tiếp cận tinh vi hơn là mạng Inception ( Đi sâu hơn với các kết quả ) trong đó ý tưởng là tăng độ thưa thớt nhưng vẫn có thể đạt được độ chính xác cao hơn, bằng cách trao đổi số lượng tham số trong lớp chập so với mô đun khởi động cho các mạng sâu hơn.
Một bài báo hay cung cấp gợi ý về kiến trúc hiện tại và vai trò của một số kích thước thiết kế theo cách có cấu trúc, có hệ thống là SqueezeNet: Độ chính xác ở cấp độ AlexNet với các tham số ít hơn 50 lần và kích thước mô hình <0,5 MB . Nó xây dựng trên các ý tưởng được giới thiệu trong các mô hình đã đề cập trước đó.