Tôi đoán điều quan trọng nhất là các mẫu trong dữ liệu của bạn được trải đều, bởi vì cho dù bạn có bao nhiêu dữ liệu, nhiều dữ liệu sẽ luôn tốt hơn. Rốt cuộc, nếu bạn cố gắng học cách phân biệt giữa ảnh mèo và chó, bạn không thể mong đợi mô hình của mình hoạt động tốt nếu bạn chỉ cho nó ăn ảnh mèo.
Như được đề xuất trong câu trả lời của Kevin L , sẽ rất hợp lý khi xem xét sự khác biệt giữa lỗi đào tạo và lỗi kiểm tra. Nếu dữ liệu thử nghiệm của bạn độc lập với dữ liệu đào tạo của bạn, điều này đưa ra một dấu hiệu cho thấy mức độ tổng quát của mô hình của bạn đối với dữ liệu không có sẵn. Một cái gì đó tôi muốn thêm vào đó là một sự khác biệt lớn giữa lỗi đào tạo và kiểm tra chỉ cho bạn biết rằng mô hình của bạn không khái quát tốt, tức là bạn đang sử dụng quá nhiều dữ liệu đào tạo. Nhiều dữ liệu hơn có thể sẽ giúp ích, bởi vì bây giờ mạng cũng cần mô hình hóa các điểm dữ liệu bổ sung, do đó không thể vượt quá mức đó nữa. Tuy nhiên, có thể đáng để thay đổi mô hình của bạn sao cho nó khái quát hơn. Chương này từ một cuốn sách tuyệt vời giải thích những loại hình chính quy tồn tại và cách chúng có thể được áp dụng trong các mạng để có được sự khái quát hóa tốt hơn.
Nếu bạn đang tìm kiếm một biện pháp định lượng hơn, gần đây tôi đã tìm thấy câu hỏi này trên quora. Đó là về một bộ mã hóa tự động, nhưng tôi đoán nó cũng nên được áp dụng cho ví dụ của bạn. Tôi không biết liệu điều này có đúng không (xin vui lòng cho tôi biết), nhưng tôi sẽ lý do rằng ví dụ cho MNIST, người ta có thể lập luận rằng bạn cố gắng giảm hình ảnh với tối đa 28 * 28 * 8 * 10 000 = 62 720 000 bit entropy đến mười lớp trong mã hóa một nóng với 10 * 10 * 10 000 = 1 000 000 bit entropy. Bởi vì chúng ta chỉ quan tâm đến 1 000 000 bit của entropy ở đầu ra, nên chúng ta có thể nói rằng với 1 000 000 tham số, mỗi tham số đại diện cho một bit, là 1e-4 bit cho mỗi mẫu. Điều này có nghĩa là bạn sẽ cần nhiều dữ liệu hơn. Hoặc bạn có quá nhiều tham số, vì ví dụ với 100 tham số, bạn có 10 000 bit cho mỗi tham số và do đó 1 bit cho mỗi mẫu. Tuy nhiên,