Tôi không nghĩ rằng có một câu trả lời chắc chắn cho câu hỏi của bạn. Nhưng tôi nghĩ rằng sự khôn ngoan thông thường diễn ra như sau:
Về cơ bản, khi không gian giả thuyết của một thuật toán học tập phát triển, thuật toán có thể học các cấu trúc ngày càng phong phú hơn. Nhưng đồng thời, thuật toán trở nên dễ bị quá mức và lỗi tổng quát hóa của nó có khả năng tăng lên.
Vì vậy, cuối cùng, đối với bất kỳ tập dữ liệu cụ thể nào, nên làm việc với mô hình tối thiểu có đủ khả năng để tìm hiểu cấu trúc thực của dữ liệu. Nhưng đây là một lời khuyên rất gợn sóng, vì thường thì "cấu trúc thực của dữ liệu" là không xác định, và thường thì ngay cả khả năng của các mô hình ứng cử viên cũng chỉ được hiểu một cách mơ hồ.
Khi nói đến các mạng thần kinh, kích thước của không gian giả thuyết được kiểm soát bởi số lượng tham số. Và dường như đối với một số lượng tham số cố định (hoặc một thứ tự cường độ cố định), đi sâu hơn cho phép các mô hình nắm bắt các cấu trúc phong phú hơn (ví dụ như bài báo này ).
Điều này có thể giải thích một phần sự thành công của các mô hình sâu hơn với ít tham số hơn: VGGNet (từ 2014) có 16 lớp với ~ 140M tham số, trong khi ResNet (từ 2015) đánh bại nó với 152 lớp nhưng chỉ có ~ 2M tham số
(như một mặt, các mô hình nhỏ hơn có thể được đào tạo dễ dàng hơn về mặt tính toán - nhưng tôi không nghĩ rằng đó là một yếu tố chính - vì độ sâu thực sự làm phức tạp việc đào tạo)
Lưu ý rằng xu hướng này (sâu hơn, ít tham số hơn) chủ yếu xuất hiện trong các nhiệm vụ và mạng tích chập liên quan đến tầm nhìn và điều này đòi hỏi một lời giải thích cụ thể về miền. Vì vậy, đây là một quan điểm khác:
Mỗi "nơ-ron" trong một lớp chập có một "trường tiếp nhận", đó là kích thước và hình dạng của các đầu vào ảnh hưởng đến từng đầu ra. Theo trực giác, mỗi hạt nhân nắm bắt một số loại quan hệ giữa các đầu vào gần đó. Và hạt nhân nhỏ (phổ biến và thích hợp hơn) có một lĩnh vực tiếp nhận nhỏ, vì vậy họ chỉ có thể cung cấp thông tin liên quan đến quan hệ địa phương.
Nhưng khi bạn đi sâu hơn, lĩnh vực tiếp nhận của mỗi tế bào thần kinh đối với một số lớp trước đó trở nên lớn hơn. Vì vậy, các lớp sâu có thể cung cấp các tính năng với ý nghĩa ngữ nghĩa toàn cầu và các chi tiết trừu tượng (quan hệ quan hệ ... về quan hệ của các đối tượng), trong khi chỉ sử dụng các hạt nhân nhỏ (giúp thường xuyên hóa các mối quan hệ mà mạng học được, và giúp nó hội tụ và khái quát hóa).
Vì vậy, tính hữu ích của các mạng tích chập sâu trong tầm nhìn máy tính có thể được giải thích một phần bởi cấu trúc không gian của hình ảnh và video. Có thể thời gian sẽ cho biết rằng đối với các loại vấn đề khác nhau hoặc đối với các kiến trúc không tích chập, độ sâu thực sự không hoạt động tốt.