Chọn kích thước bộ lọc, bước tiến, vv trong một CNN?

11

Tôi đã xem các bài giảng CS231N từ Stanford và tôi đang cố gắng xoay quanh một số vấn đề trong kiến trúc CNN. Điều tôi đang cố gắng hiểu là nếu có một số hướng dẫn chung để chọn kích thước bộ lọc tích chập và những thứ như bước tiến hay đây là một nghệ thuật hơn là một khoa học?

Pooling tôi hiểu tồn tại chủ yếu để tạo ra một số hình thức dịch bất biến thành một mô hình. Mặt khác, tôi không có trực giác tốt về cách chọn kích cỡ sải chân. Có một số hướng dẫn khác về điều đó ngoại trừ cố gắng nén kích thước lớp hiện tại hoặc cố gắng đạt được một lĩnh vực tiếp nhận lớn hơn đối với một tế bào thần kinh? Bất cứ ai biết bất kỳ giấy tờ tốt hoặc tương tự mà thảo luận về điều này?

neural-networks deep-learning conv-neural-network

— dst
nguồn

7

Là một văn bản giới thiệu cho tất cả các vấn đề bạn đặt tên, tôi muốn giới thiệu cuốn sách học sâu . Nó cung cấp một cái nhìn bao quát về lĩnh vực này. Nó giải thích vai trò của từng tham số đó.

Theo tôi là rất hữu ích để đọc về một số kiến trúc phổ biến nhất (resnet, inception, alex-net), và trích xuất các ý tưởng chính dẫn đến các quyết định thiết kế. Sau khi đọc cuốn sách nói trên.

Trong giáo trình của các bài giảng mà bạn đề cập, nó được giải thích rất chi tiết về cách lớp tích chập thêm một số lượng lớn các tham số (trọng số, độ lệch) và nơ ron. Lớp này, một khi được đào tạo, nó có thể trích xuất các mẫu ý nghĩa từ hình ảnh. Đối với các lớp thấp hơn, các bộ lọc trông giống như các bộ chiết cạnh. Đối với các lớp cao hơn, những hình dạng nguyên thủy đó được kết hợp để mô tả các hình thức phức tạp hơn. Những bộ lọc này liên quan đến số lượng lớn các tham số và một vấn đề lớn về thiết kế mạng sâu trong việc làm thế nào để có thể mô tả các hình thức phức tạp mà vẫn có thể giảm số lượng tham số.

Do các pixel lân cận có tương quan mạnh (đặc biệt ở các lớp thấp nhất), nên giảm kích thước đầu ra bằng cách lấy mẫu (gộp chung) phản hồi của bộ lọc. Hai pixel càng cách xa nhau thì càng ít tương quan. Do đó, một bước tiến lớn trong lớp gộp dẫn đến mất thông tin cao. Nói một cách lỏng lẻo. Một sải chân 2 và kích thước hạt nhân 2x2 cho lớp gộp là một lựa chọn phổ biến.

Một cách tiếp cận tinh vi hơn là mạng Inception ( Đi sâu hơn với các kết quả ) trong đó ý tưởng là tăng độ thưa thớt nhưng vẫn có thể đạt được độ chính xác cao hơn, bằng cách trao đổi số lượng tham số trong lớp chập so với mô đun khởi động cho các mạng sâu hơn.

Một bài báo hay cung cấp gợi ý về kiến trúc hiện tại và vai trò của một số kích thước thiết kế theo cách có cấu trúc, có hệ thống là SqueezeNet: Độ chính xác ở cấp độ AlexNet với các tham số ít hơn 50 lần và kích thước mô hình <0,5 MB . Nó xây dựng trên các ý tưởng được giới thiệu trong các mô hình đã đề cập trước đó.

— jpmuc
nguồn

1

Nếu bạn xem xét việc học tốt hơn theo thời gian học, tôi muốn đề xuất các kích thước hạt nhân và bước tiến này;

Về kích thước bộ lọc, tôi nghĩ nó phụ thuộc vào đặc điểm hình ảnh của bạn. Ví dụ: số lượng pixel lớn là cần thiết để mạng nhận dạng đối tượng, bạn có thể sử dụng các bộ lọc lớn hơn, mặt khác nếu các đối tượng có tính năng hơi nhỏ hoặc cục bộ, bạn xem xét áp dụng các bộ lọc nhỏ hơn so với kích thước hình ảnh đầu vào của mình.

Đối với kích thước sải chân, đối với tôi, sải chân nhỏ sẽ tốt hơn trong việc nắm bắt các chi tiết tốt hơn của hình ảnh đầu vào.

Đối với tôi, lợi ích của việc gộp chung là nó trích xuất các tính năng sắc nét nhất của hình ảnh. Nhìn chung, các tính năng sắc nét nhất trông giống như đại diện cấp thấp nhất của hình ảnh.

— Mây Cho
nguồn