Các quy tắc để chọn siêu âm mạng thần kinh tích chập

22

Có bất kỳ giấy tờ tốt bao gồm một số cách có phương pháp để chọn kích thước cho các bộ lọc, gộp các đơn vị và xác định số lượng các lớp chập không?

neural-networks deep-learning conv-neural-network

— Con khỉ không gian
nguồn

1

Tôi đã chỉnh sửa tiêu đề của bạn. Tốt hơn là sử dụng tên đầy đủ thay vì viết tắt vì trong nhiều trường hợp, tên ngắn là mơ hồ.

— Tim

11

Ở một mức độ nào đó, có một bài báo gần đây được đưa ra bởi các nhà nghiên cứu của Google về cách chọn kiến trúc Inception tốt. Các mạng khởi động đạt được hiệu suất rất cao đối với ngân sách tham số bị hạn chế, do đó, đây là nơi tốt để bắt đầu như bất kỳ và gần đây. Đây là liên kết: Xem xét lại Kiến trúc khởi động cho tầm nhìn máy tính .

Họ không đưa ra bất kỳ quy tắc định lượng cứng nào mà thay vào đó là các hướng dẫn mà họ đã sử dụng và tin rằng đã giúp họ đạt được hiệu suất tốt trong các cuộc thi ImageNet gần đây.

Ví dụ, một số nguyên tắc họ thảo luận là:

Sử dụng các ngăn xếp của các lớp chập trường tiếp nhận nhỏ hơn thay vì sử dụng một lớp chập trường tiếp nhận lớn duy nhất, tức là 2 ngăn xếp của các lớp đối lưu 3x3 so với một lớp đối lưu 7x7. Ý tưởng này không mới, nó cũng đã được thảo luận trong Return of the Devil trong Chi tiết: Đi sâu vào Mạng lưới kết hợp của nhóm Oxford VGG. Điều này được thúc đẩy bởi sự cần thiết phải là tham số hiệu quả. Nó cũng có tác dụng kép của năng lực đại diện nhiều hơn khi chúng tôi giới thiệu nhiều phi tuyến hơn với nhiều lớp hơn.
Một cái gì đó mà tôi chưa từng thấy trong tài liệu mà bài viết này đề cập là nhân tố các lớp chập thành các lớp sâu. Vì vậy, thay vì có một lớp đối lưu 7x7, chúng ta sẽ có một lớp đối lưu 1x7 và sau đó là một lớp đối lưu 7x1. Thêm chiều sâu, tôi tin rằng nó cũng tham số hiệu quả là tốt.
Cân bằng độ sâu và chiều rộng của mạng của bạn. Sử dụng biểu diễn chiều cao. Đây là một trong những nguyên tắc đằng sau các mô-đun khởi động của chúng, chúng kết hợp nhiều lớp kết hợp lại với nhau. Vì vậy, ngay cả khi bạn có kích thước không gian nhỏ trong mạng lưới đối lưu của mình, sử dụng các mô-đun Inception, chúng ta có thể sử dụng biểu diễn chiều cao thông qua phép ghép chập đa quy mô: 1x1, 3x3, 3x3-3x3, nhóm tối đa được đặt cùng nhau. Các mô-đun Inception này có "chiều rộng" vì chúng có thể được hiểu là thực hiện nhiều thao tác song song. Họ còn đi xa hơn với các mô-đun Inception mới có các kích thước chập hệ số, 1x3, 3x1, v.v.
Sử dụng các lớp đối lưu 1x1 (Mạng theo kiểu Mạng) để giảm tính chiều. Họ sử dụng rất nhiều kỹ thuật giảm kích thước để đạt được hiệu quả tham số. Họ tin rằng điều này là hiệu quả vì các bản đồ tính năng liền kề có đầu ra tương quan cao. Điều này có ý nghĩa như hình ảnh tự nhiên được biết là thể hiện một số thuộc tính thống kê địa phương phù hợp với điều này. Vì vậy, giảm kích thước thông qua các lớp NIN 1x1 không có tác động tai hại đối với sức mạnh đại diện.

Có nhiều hơn trong bài viết. Tôi nghĩ đó là một bài viết có thể cung cấp một số cái nhìn sâu sắc về những gì bạn đang hỏi về. Họ đang nói về một số khái niệm rất cốt lõi của thiết kế kiến trúc lưới.

— Indie AI
nguồn

2

Tôi chưa bắt gặp bất kỳ tài liệu nào về việc chọn các siêu tham số này làm chức năng của các đặc tả vấn đề. Nhưng, tôi hiểu rằng hầu hết đang áp dụng các phương pháp tối ưu hóa Bayes về 0 trong các giá trị hiệu quả. Bạn chỉ định một phạm vi hợp lý và bằng cách thử nghiệm các kết hợp khác nhau, bạn tìm hiểu một mô hình về cách các tham số siêu đó liên quan đến độ chính xác của mô hình. Nó làm việc tốt cho tôi. Kiểm tra "Tối ưu hóa thực tế Bayesian của các thuật toán học máy" từ Snoek, Larochelle và Adams ( http://epage.nips.cc/apers/4522-pratics-bayesian-optimization-of-machine-learning-alerskyms.pdf ).

— David Kelley
nguồn