Khi cập nhật các trọng số của mạng nơ ron bằng thuật toán backpropagation với một thuật ngữ động lượng, liệu tốc độ học tập có nên được áp dụng cho thuật ngữ động lượng không?
Hầu hết các thông tin tôi có thể tìm thấy về việc sử dụng động lượng đều có các phương trình trông giống như thế này:
trong đó là tốc độ học tập và là thuật ngữ động lượng.
nếu thuật ngữ lớn hơn thuật ngữ thì trong lần lặp tiếp theo, từ lần lặp trước sẽ có ảnh hưởng lớn hơn đến trọng số so với thuật ngữ hiện tại.
Đây có phải là mục đích của thuật ngữ động lượng? hoặc phương trình nên giống như thế này?
I E. nhân rộng mọi thứ theo tỷ lệ học tập?