Trong một số trường hợp, tôi đã đào tạo một số mạng thần kinh (mạng lan truyền ngược) với một số bộ dữ liệu khá phức tạp (vị trí backgammon và OCR). Khi làm điều này, có vẻ như rất nhiều công việc liên quan đến việc thử các cấu hình khác nhau của các mạng, để tìm cấu hình tối ưu cho việc học. Thường có một sự thỏa hiệp giữa các mạng nhỏ để sử dụng / học hỏi nhanh hơn và các mạng lớn hơn, có khả năng thể hiện nhiều kiến thức hơn.
Sau đó, tôi tự hỏi nếu có thể làm cho một số mạng vừa nhanh và lớn. Tôi nghĩ rằng ở mạng nơi mọi nơ-ron không được kết nối đầy đủ phải nhanh hơn để tính toán so với các mạng có kết nối đầy đủ trên tất cả các lớp. Nó có thể là đào tạo đã phát hiện ra rằng một số đầu vào nhất định là không cần thiết bởi các tế bào thần kinh nhất định, và do đó loại bỏ các kết nối đó. Theo cách tương tự, việc đào tạo cũng có thể liên quan đến việc thêm các nơ-ron mới nếu một số nơ-ron dường như bị "quá tải".
Đây có phải là một cái gì đó đã được thử với bất kỳ thành công? Có lớp học nào tồn tại với loại hành vi này không?