Kết nối đầy đủ (ít nhất là lớp này sang lớp khác với hơn 2 lớp ẩn) mạng backprop là những người học phổ quát. Thật không may, chúng thường chậm học và có xu hướng quá phù hợp hoặc có những khái quát vụng về.
Từ việc đánh lừa các mạng này, tôi đã quan sát thấy việc cắt tỉa một số cạnh (để trọng lượng của chúng bằng 0 và không thể thay đổi) có xu hướng làm cho các mạng học nhanh hơn và khái quát hóa tốt hơn. Có một lý do cho điều này? Có phải chỉ vì sự giảm chiều của không gian tìm kiếm trọng lượng, hay có một lý do tinh tế hơn?
Ngoài ra, việc khái quát hóa tốt hơn có phải là một tạo tác của các vấn đề 'tự nhiên' mà tôi đang xem xét không?