Tôi hy vọng các đoạn trích sau đây sẽ cung cấp một cái nhìn sâu sắc về câu hỏi của tôi sẽ là gì. Đây là từ http://neuralnetworksanddeeplearning.com/chap3.html
Việc học dần dần chậm lại. Cuối cùng, vào khoảng epoch 280, độ chính xác phân loại khá nhiều ngừng cải thiện. Các kỷ nguyên sau chỉ đơn thuần nhìn thấy các dao động ngẫu nhiên nhỏ gần giá trị của độ chính xác ở epoch 280. Tương phản điều này với biểu đồ trước đó, trong đó chi phí liên quan đến dữ liệu đào tạo tiếp tục giảm một cách trơn tru. Nếu chúng ta chỉ nhìn vào chi phí đó, có vẻ như mô hình của chúng ta vẫn đang "tốt hơn". Nhưng kết quả kiểm tra độ chính xác cho thấy sự cải thiện là một ảo ảnh. Giống như mô hình mà Fermi không thích, những gì mạng của chúng tôi học được sau epoch 280 không còn khái quát hóa cho dữ liệu thử nghiệm. Và vì vậy nó không hữu ích cho việc học. Chúng tôi nói rằng mạng đang hoạt động quá mức hoặc quá mức vượt quá 280.
Chúng tôi đang đào tạo một mạng lưới thần kinh và chi phí (trên dữ liệu đào tạo) sẽ giảm xuống cho đến kỷ nguyên 400 nhưng độ chính xác phân loại đang trở nên tĩnh (chặn một vài biến động ngẫu nhiên) sau epoch 280 vì vậy chúng tôi kết luận rằng mô hình đang bị quá tải trên dữ liệu đào tạo sau kỷ nguyên 280.
Chúng ta có thể thấy rằng chi phí cho dữ liệu thử nghiệm được cải thiện cho đến khoảng 15, nhưng sau đó nó thực sự bắt đầu trở nên tồi tệ hơn, mặc dù chi phí cho dữ liệu đào tạo đang tiếp tục tốt hơn. Đây là một dấu hiệu khác cho thấy mô hình của chúng tôi đang quá mức. Tuy nhiên, nó đặt ra một câu đố, đó là liệu chúng ta nên coi epoch 15 hay epoch 280 là điểm mà tại đó việc vượt quá mức sẽ đến để thống trị việc học? Từ quan điểm thực tế, điều chúng tôi thực sự quan tâm là cải thiện độ chính xác phân loại trên dữ liệu thử nghiệm, trong khi chi phí cho dữ liệu thử nghiệm không hơn một proxy cho độ chính xác phân loại. Và do đó, có ý nghĩa nhất khi coi epoch 280 là điểm vượt quá mức chi phối đang chi phối việc học tập trong mạng lưới thần kinh của chúng ta.
Trái ngược với độ chính xác phân loại trên dữ liệu thử nghiệm so với chi phí đào tạo trước đây, chúng tôi hiện đang đặt chi phí cho dữ liệu thử nghiệm so với chi phí đào tạo.
Sau đó, cuốn sách tiếp tục giải thích tại sao 280 là kỷ nguyên đúng nơi bắt đầu quá mức. Đó là những gì tôi có một vấn đề với. Tôi không thể quấn đầu xung quanh cái này.
Chúng tôi đang yêu cầu mô hình giảm thiểu chi phí và do đó chi phí là số liệu mà nó sử dụng làm thước đo sức mạnh của chính nó để phân loại chính xác. Nếu chúng ta coi 280 là kỷ nguyên đúng khi bắt đầu quá mức, thì chúng ta không tạo ra một mô hình thiên vị mà là phân loại tốt hơn trên dữ liệu thử nghiệm cụ thể nhưng dù sao cũng đưa ra quyết định với độ tin cậy thấp và do đó dễ bị sai lệch từ kết quả hiển thị trên dữ liệu thử nghiệm?