Câu hỏi này có vẻ hơi kỳ quặc. Tôi đã tự nghiên cứu về lý thuyết thông tin và quyết định thực hiện một số nghiên cứu chính thức hơn về học tập sâu. Hãy chịu đựng tôi khi tôi cố gắng giải thích. Tôi đã lấy một tập hợp con "đào tạo" lớn của MNIST làm con chuột lang của tôi.
1) Chuyển đổi mọi hình ảnh trong MNIST thành "đen trắng" (giá trị pixel chỉ bằng 0 hoặc 1)
2) Tổng hợp tất cả các hình ảnh dữ liệu để xây dựng biểu đồ qua các pixel - Tôi đã đếm số lần mỗi pixel nhận được 1 giá trị trong tập dữ liệu
3) Biểu đồ chuẩn hóa để có ước tính phân phối xác suất "thật"
4) Từ đây, tôi có phân phối xác suất sau (được hiển thị dưới dạng bản đồ nhiệt với matplotlib):
[
5) Bây giờ tôi đã tính toán entropy và nhận được: bit
6) Theo David MacKay trong cuốn sách Lý thuyết thông tin của mình, chúng ta có thể hiểu một mạng lưới thần kinh là một kênh ồn ào và coi mỗi nơ-ron là có dung lượng 2 bit. Mặc dù anh ấy nói nhà nước để sử dụng ý tưởng này một cách cẩn thận. Chương 40 của cuốn sách của mình http://www.inference.org.uk/itila/book.html )
7) Vì vậy, theo ước tính sơ bộ (và cẩn thận), chúng tôi có thể nói rằng chúng tôi sẽ cần một mạng lưới thần kinh gồm 95 nơ-ron để có thể mã hóa nhãn của tập huấn luyện MNIST này (190/2) 8) Bây giờ chúng tôi có thể nhận được cho câu hỏi của tôi:
Ngay cả khi đây là một phép tính rất "lạc hậu", không phải mạng lưới thần kinh có khả năng học cách ghi nhãn ít nhất là trong sân bóng của 95 nơ-ron? Ví dụ, tại sao chúng ta cần một mạng thần kinh với 21840 tham số để có độ chính xác 99%? (xem xét một ví dụ trong ví dụ của PyTorch cho MNIST: https://github.com/pytorch/examples/blob/master/mnist/main.py )