Công thức tính toán độ cao của vnikikik Chervonenkis (VC) cho các mạng thần kinh nằm trong khoảng từ đến , với trong trường hợp xấu nhất, trong đó là số cạnh và là số lượng nút. Số lượng mẫu đào tạo cần thiết để đảm bảo khái quát hóa mạnh mẽ là tuyến tính với kích thước VC.
Điều này có nghĩa là đối với một mạng có hàng tỷ cạnh, như trong trường hợp các mô hình học sâu thành công, tập dữ liệu đào tạo cần hàng tỷ mẫu đào tạo trong trường hợp tốt nhất, trong trường hợp xấu nhất trong trường hợp xấu nhất. Các bộ đào tạo lớn nhất hiện có khoảng một trăm tỷ mẫu. Vì không có đủ dữ liệu đào tạo, nên các mô hình học sâu không chắc là khái quát. Thay vào đó, họ đang làm quá mức dữ liệu đào tạo. Điều này có nghĩa là các mô hình sẽ không hoạt động tốt trên dữ liệu không giống với dữ liệu đào tạo, đây là một đặc tính không mong muốn cho máy học.
Do không có khả năng học sâu để khái quát hóa, theo phân tích chiều VC, tại sao kết quả học sâu lại bị thổi phồng như vậy? Chỉ có độ chính xác cao trên một số tập dữ liệu không có nghĩa là nhiều. Có điều gì đặc biệt về kiến trúc học sâu giúp giảm đáng kể kích thước VC không?
Nếu bạn không nghĩ rằng phân tích kích thước VC có liên quan, vui lòng cung cấp bằng chứng / giải thích rằng học sâu là khái quát hóa và không quá mức. Tức là nó có thu hồi tốt và chính xác, hay chỉ thu hồi tốt? Thu hồi 100% là chuyện nhỏ để đạt được, cũng như độ chính xác 100%. Có được cả hai gần 100% là rất khó.
Một ví dụ ngược lại, đây là bằng chứng cho thấy học tập sâu là quá mức. Một mô hình overfit rất dễ bị đánh lừa vì nó đã kết hợp nhiễu xác định / ngẫu nhiên. Xem hình ảnh sau đây cho một ví dụ về quá mức.
Ngoài ra, hãy xem các câu trả lời được xếp hạng thấp hơn cho câu hỏi này để hiểu các vấn đề với mô hình overfit mặc dù độ chính xác tốt trên dữ liệu thử nghiệm.
Một số người đã trả lời rằng chính quy hóa giải quyết vấn đề về kích thước VC lớn. Xem câu hỏi này để thảo luận thêm.