Câu hỏi là về kiến trúc của Deep Residual Networks ( ResNets ). Mô hình giành được vị trí thứ nhất tại "Thử thách nhận dạng hình ảnh quy mô lớn 2015" (ILSVRC2015) trong tất cả năm bài hát chính:
- Phân loại ImageNet: Lưới siêu sâu sâu (trích dẫn Yann) lưới 152 lớp
- Phát hiện ImageNet: tốt hơn 16% so với thứ 2
- Bản địa hóa ImageNet: tốt hơn 27% so với thứ 2
- Phát hiện COCO: tốt hơn 11% so với thứ 2
- Phân khúc COCO: tốt hơn 12% so với
nguồn thứ 2 : MSRA @ ILSVRC & COCO 2015 (thuyết trình, slide 2)
Công việc này được mô tả trong bài viết sau:
Nhóm nghiên cứu của Microsoft (nhà phát triển ResNets: Kaiming He, Xiangyu Zhang, Shao Khánh Ren, Jian Sun) trong bài viết của họ:
nói rằng độ sâu đóng vai trò chính:
" Chúng tôi có được những kết quả này thông qua một khái niệm đơn giản nhưng thiết yếu - đi sâu hơn. Những kết quả này cho thấy tiềm năng của việc đẩy các giới hạn về chiều sâu. "
Nó cũng được nhấn mạnh trong phần trình bày của họ (sâu hơn - tốt hơn):
- "Một mô hình sâu hơn không nên có lỗi đào tạo cao hơn."
- "ResNets sâu hơn có lỗi đào tạo thấp hơn và lỗi kiểm tra cũng thấp hơn."
- "ResNets sâu hơn có lỗi thấp hơn."
- "Tất cả được hưởng lợi nhiều hơn từ các tính năng sâu hơn - lợi nhuận tích lũy!"
- "Sâu hơn vẫn tốt hơn."
Dưới đây là cấu trúc của phần dư 34 lớp (để tham khảo):
Nhưng gần đây tôi đã tìm thấy một lý thuyết giới thiệu một cách giải thích mới về các mạng còn lại cho thấy chúng là các quần thể theo cấp số nhân:
Mạng dư là các tập hợp theo cấp số nhân của các mạng tương đối nông (2016)
Deep Resnets được mô tả là nhiều mạng nông có đầu ra được gộp ở các độ sâu khác nhau. Có một hình ảnh trong bài viết. Tôi đính kèm nó với lời giải thích:
Mạng dư được quy ước là (a), là biểu diễn tự nhiên của phương trình (1). Khi chúng tôi mở rộng công thức này sang phương trình (6), chúng tôi có được một cái nhìn rõ ràng về mạng dư 3 khối (b). Từ quan điểm này, rõ ràng là các mạng dư có các đường dẫn ẩn O (2 ^ n) kết nối đầu vào và đầu ra và việc thêm một khối sẽ nhân đôi số lượng đường dẫn.
Trong kết luận của bài viết, nó được nêu:
Nó không phải là chiều sâu, mà là tập hợp làm cho các mạng còn lại mạnh mẽ . Mạng dư đẩy các giới hạn của bội số mạng, không phải độ sâu mạng. Quan điểm làm sáng tỏ của chúng tôi và nghiên cứu tổn thương cho thấy các mạng còn lại là một tập hợp ngầm của nhiều mạng theo cấp số nhân. Nếu hầu hết các con đường góp phần dốc rất ngắn so với chiều sâu tổng thể của mạng, tăng độ sâu một mình không thể là đặc điểm quan trọng của mạng lưới dư. Bây giờ chúng tôi tin rằng tính đa dạng , tính biểu cảm của mạng về mặt số lượng đường dẫn, đóng một vai trò quan trọng .
Nhưng nó chỉ là một lý thuyết gần đây có thể được xác nhận hoặc bác bỏ. Đôi khi nó xảy ra rằng một số lý thuyết bị bác bỏ và các bài báo được rút lại.
Rốt cuộc chúng ta có nên nghĩ về ResNets sâu như một bản hòa tấu không? Tập hợp hay độ sâu làm cho mạng dư mạnh mẽ như vậy? Có thể là ngay cả chính các nhà phát triển cũng không hoàn toàn cảm nhận được mô hình của chính họ đại diện cho cái gì và khái niệm chính trong đó là gì?