Khi tôi triển khai gradient lô nhỏ, tôi chỉ tính trung bình độ dốc của tất cả các ví dụ trong lô đào tạo. Tuy nhiên, tôi nhận thấy rằng bây giờ tỷ lệ học tối ưu cao hơn nhiều so với độ dốc trực tuyến. Trực giác của tôi là điều này là do độ dốc trung bình ít ồn hơn và do đó có thể được theo dõi nhanh hơn. Vì vậy, có lẽ nó cũng có ý nghĩa chỉ để tổng hợp độ dốc của một lô. Các giá trị có thể là tích cực và tiêu cực nào.
Tôi biết đó chỉ là một yếu tố bất biến có thể được cân bằng bằng cách sử dụng tỷ lệ học tập. Nhưng tôi tự hỏi đó là định nghĩa mà các nhà khoa học đã đồng ý để tôi có thể tái tạo kết quả từ các bài báo mạng thần kinh.
Có phải người ta thường chia độ dốc tổng của một lô cho kích thước lô không?