Các mạng còn lại sâu có nên được xem như là một tập hợp của các mạng?


12

Câu hỏi là về kiến ​​trúc của Deep Residual Networks ( ResNets ). Mô hình giành được vị trí thứ nhất tại "Thử thách nhận dạng hình ảnh quy mô lớn 2015" (ILSVRC2015) trong tất cả năm bài hát chính:

  • Phân loại ImageNet: Lưới siêu sâu sâu (trích dẫn Yann) lưới 152 lớp
  • Phát hiện ImageNet: tốt hơn 16% so với thứ 2
  • Bản địa hóa ImageNet: tốt hơn 27% so với thứ 2
  • Phát hiện COCO: tốt hơn 11% so với thứ 2
  • Phân khúc COCO: tốt hơn 12% so với

    nguồn thứ 2 : MSRA @ ILSVRC & COCO 2015 (thuyết trình, slide 2)

Công việc này được mô tả trong bài viết sau:

Học tập sâu để nhận dạng hình ảnh (2015, PDF)


Nhóm nghiên cứu của Microsoft (nhà phát triển ResNets: Kaiming He, Xiangyu Zhang, Shao Khánh Ren, Jian Sun) trong bài viết của họ:

" Ánh xạ nhận dạng trong Mạng lưới còn sót lại (2016) "

nói rằng độ sâu đóng vai trò chính:

" Chúng tôi có được những kết quả này thông qua một khái niệm đơn giản nhưng thiết yếu - đi sâu hơn. Những kết quả này cho thấy tiềm năng của việc đẩy các giới hạn về chiều sâu. "

Nó cũng được nhấn mạnh trong phần trình bày của họ (sâu hơn - tốt hơn):

- "Một mô hình sâu hơn không nên có lỗi đào tạo cao hơn."
- "ResNets sâu hơn có lỗi đào tạo thấp hơn và lỗi kiểm tra cũng thấp hơn."
- "ResNets sâu hơn có lỗi thấp hơn."
- "Tất cả được hưởng lợi nhiều hơn từ các tính năng sâu hơn - lợi nhuận tích lũy!"
- "Sâu hơn vẫn tốt hơn."

Dưới đây là cấu trúc của phần dư 34 lớp (để tham khảo): nhập mô tả hình ảnh ở đây


Nhưng gần đây tôi đã tìm thấy một lý thuyết giới thiệu một cách giải thích mới về các mạng còn lại cho thấy chúng là các quần thể theo cấp số nhân:

Mạng dư là các tập hợp theo cấp số nhân của các mạng tương đối nông (2016)

Deep Resnets được mô tả là nhiều mạng nông có đầu ra được gộp ở các độ sâu khác nhau. Có một hình ảnh trong bài viết. Tôi đính kèm nó với lời giải thích:

nhập mô tả hình ảnh ở đâyMạng dư được quy ước là (a), là biểu diễn tự nhiên của phương trình (1). Khi chúng tôi mở rộng công thức này sang phương trình (6), chúng tôi có được một cái nhìn rõ ràng về mạng dư 3 khối (b). Từ quan điểm này, rõ ràng là các mạng dư có các đường dẫn ẩn O (2 ^ n) kết nối đầu vào và đầu ra và việc thêm một khối sẽ nhân đôi số lượng đường dẫn.

Trong kết luận của bài viết, nó được nêu:

Nó không phải là chiều sâu, mà là tập hợp làm cho các mạng còn lại mạnh mẽ . Mạng dư đẩy các giới hạn của bội số mạng, không phải độ sâu mạng. Quan điểm làm sáng tỏ của chúng tôi và nghiên cứu tổn thương cho thấy các mạng còn lại là một tập hợp ngầm của nhiều mạng theo cấp số nhân. Nếu hầu hết các con đường góp phần dốc rất ngắn so với chiều sâu tổng thể của mạng, tăng độ sâu một mình không thể là đặc điểm quan trọng của mạng lưới dư. Bây giờ chúng tôi tin rằng tính đa dạng , tính biểu cảm của mạng về mặt số lượng đường dẫn, đóng một vai trò quan trọng .

Nhưng nó chỉ là một lý thuyết gần đây có thể được xác nhận hoặc bác bỏ. Đôi khi nó xảy ra rằng một số lý thuyết bị bác bỏ và các bài báo được rút lại.


Rốt cuộc chúng ta có nên nghĩ về ResNets sâu như một bản hòa tấu không? Tập hợp hay độ sâu làm cho mạng dư mạnh mẽ như vậy? Có thể là ngay cả chính các nhà phát triển cũng không hoàn toàn cảm nhận được mô hình của chính họ đại diện cho cái gì và khái niệm chính trong đó là gì?

Câu trả lời:


4

Hãy tưởng tượng một vị thần ban cho bạn ba điều ước. Bởi vì bạn là một nhà nghiên cứu sâu học đầy tham vọng, mong muốn đầu tiên của bạn là một giải pháp hoàn hảo cho NN 1000 lớp cho Image Net, xuất hiện kịp thời trên máy tính xách tay của bạn.

Bây giờ, một giải pháp cảm ứng thần tài không cung cấp cho bạn bất kỳ trực giác nào về cách nó có thể được hiểu là một bản hòa tấu, nhưng bạn có thực sự tin rằng bạn cần 1000 lớp trừu tượng để phân biệt một con mèo với một con chó không? Như các tác giả của "tập hợp" đề cập đến chính họ, điều này chắc chắn không đúng với các hệ thống sinh học.

Tất nhiên, bạn có thể lãng phí điều ước thứ hai của mình vào việc phân tách giải pháp thành một tập hợp các mạng và tôi khá chắc chắn rằng vị thần sẽ có thể bắt buộc. Lý do là một phần sức mạnh của một mạng lưới sâu sẽ luôn đến từ hiệu ứng hòa tấu.

Vì vậy, không có gì đáng ngạc nhiên khi hai thủ thuật rất thành công để đào tạo các mạng sâu, bỏ học và các mạng còn lại, có một cách giải thích ngay lập tức như là một bản hòa tấu ngầm. Do đó, "nó không phải là chiều sâu, mà là bản hòa tấu" đánh vào tôi như một sự phân đôi giả. Bạn thực sự sẽ chỉ nói rằng nếu bạn thành thật tin rằng bạn cần hàng trăm hoặc hàng ngàn mức độ trừu tượng để phân loại hình ảnh với độ chính xác của con người.

Tôi đề nghị bạn sử dụng điều ước cuối cùng cho một cái gì đó khác, có thể là một pinacolada.


0

Các mạng dư ngẫu nhiên cho nhiều phi tuyến tính như tanh sống ở rìa của sự hỗn loạn, trong đó khoảng cách cosin của hai vectơ đầu vào sẽ hội tụ đến một điểm cố định ở tốc độ đa thức, thay vì tốc độ theo cấp số nhân, như với các mạng vanilla tanh. Do đó, một mạng dư điển hình sẽ từ từ vượt qua ranh giới ổn định hỗn loạn với độ sâu, lơ lửng xung quanh ranh giới này trong nhiều lớp. Về cơ bản, nó không nhanh chóng quên đi hình học của không gian đầu vào. Vì vậy, ngay cả khi chúng ta làm cho chúng sâu đáng kể, chúng hoạt động tốt hơn các mạng vani.

Để biết thêm thông tin về việc truyền bá thông tin trong các mạng dư - Mạng trung bình còn lại của trường: Trên bờ hỗn loạn

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.