Tổng hoặc trung bình của độ dốc trong (mini) lô gradient tốt?

Khi tôi triển khai gradient lô nhỏ, tôi chỉ tính trung bình độ dốc của tất cả các ví dụ trong lô đào tạo. Tuy nhiên, tôi nhận thấy rằng bây giờ tỷ lệ học tối ưu cao hơn nhiều so với độ dốc trực tuyến. Trực giác của tôi là điều này là do độ dốc trung bình ít ồn hơn và do đó có thể được theo dõi nhanh hơn. Vì vậy, có lẽ nó cũng có ý nghĩa chỉ để tổng hợp độ dốc của một lô. Các giá trị có thể là tích cực và tiêu cực nào.

Tôi biết đó chỉ là một yếu tố bất biến có thể được cân bằng bằng cách sử dụng tỷ lệ học tập. Nhưng tôi tự hỏi đó là định nghĩa mà các nhà khoa học đã đồng ý để tôi có thể tái tạo kết quả từ các bài báo mạng thần kinh.

Có phải người ta thường chia độ dốc tổng của một lô cho kích thước lô không?

neural-networks gradient-descent backpropagation

— danijar
nguồn

Trung bình cộng.

Ví dụ: Ghi chú cho Khóa học về máy học của Andrew Ng trên Coursera do Alex Holehouse biên soạn.

Tổng hợp độ dốc do các mẫu riêng lẻ bạn có được độ dốc mượt mà hơn nhiều. Lô càng lớn thì độ dốc kết quả được sử dụng trong việc cập nhật trọng lượng càng mượt mà.

Chia tổng theo kích thước lô và lấy độ dốc trung bình có tác dụng:

Độ lớn của trọng lượng không tăng theo tỷ lệ. Thêm chính quy L2 vào cập nhật trọng số sẽ phạt các giá trị trọng lượng lớn. Điều này thường dẫn đến cải thiện hiệu suất khái quát hóa. Lấy mức trung bình, đặc biệt là nếu độ dốc xảy ra cùng hướng, giữ cho trọng lượng không quá lớn.
Độ lớn của gradient không phụ thuộc vào kích thước lô. Điều này cho phép so sánh các trọng số từ các thí nghiệm khác bằng các kích cỡ lô khác nhau.
Việc chống lại tác động của kích thước lô với tỷ lệ học tập có thể tương đương về số lượng nhưng bạn kết thúc với một tỷ lệ học tập được triển khai cụ thể. Điều này gây khó khăn cho việc truyền đạt kết quả và thiết lập thử nghiệm của bạn nếu mọi người không thể liên quan đến quy mô của các tham số bạn đang sử dụng và họ sẽ gặp khó khăn khi sao chép thử nghiệm của bạn.

Tính trung bình cho phép so sánh rõ ràng hơn và giữ độ lớn của gradient độc lập với kích thước lô. Việc chọn kích thước lô đôi khi bị hạn chế bởi các tài nguyên tính toán mà bạn có và bạn muốn giảm thiểu ảnh hưởng của việc này khi đánh giá mô hình của mình.

— ypx
nguồn

Liên kết hiện đã chết

— cdeterman

liên kết được cập nhật, không thể liên kết đến các trang trình bày gốc nữa vì vậy đã chọn Alex Holehouse .

— ypx

Hướng dẫn này dường như dành cho tổng kết thay vì trung bình .. deeplearning.net/tutorial/gettingstarted.html#uityization

— AD