Trong SGD, một epoch sẽ là phần trình bày đầy đủ của dữ liệu huấn luyện, và sau đó sẽ có N cập nhật trọng lượng cho mỗi epoch (nếu có N ví dụ dữ liệu trong tập huấn luyện).
Nếu bây giờ chúng ta thực hiện các đợt nhỏ thay vào đó, hãy nói theo đợt 20. Liệu một epoch bây giờ có bao gồm các cập nhật trọng lượng N / 20 hay là một epoch 'kéo dài' thêm 20 để nó có cùng số lần cập nhật trọng lượng không?
Tôi hỏi điều này vì trong một vài bài học, dường như quá nhanh so với số lượng kỷ nguyên đã nêu.