Làm thế nào để thuật ngữ động lượng cho thuật toán backpropagation hoạt động?


9

Khi cập nhật các trọng số của mạng nơ ron bằng thuật toán backpropagation với một thuật ngữ động lượng, liệu tốc độ học tập có nên được áp dụng cho thuật ngữ động lượng không?

Hầu hết các thông tin tôi có thể tìm thấy về việc sử dụng động lượng đều có các phương trình trông giống như thế này:

Wi=WiαΔWi+μΔWi1

trong đó là tốc độ học tập và là thuật ngữ động lượng.αμ

nếu thuật ngữ lớn hơn thuật ngữ thì trong lần lặp tiếp theo, từ lần lặp trước sẽ có ảnh hưởng lớn hơn đến trọng số so với thuật ngữ hiện tại.μαΔW

Đây có phải là mục đích của thuật ngữ động lượng? hoặc phương trình nên giống như thế này?

Wi=Wiα(ΔWi+μΔWi1)

I E. nhân rộng mọi thứ theo tỷ lệ học tập?

Câu trả lời:


10

Sử dụng Backpropagation với động lượng trong một mạng có trọng lượng khác nhau , hiệu chỉnh thứ cho trọng lượng được đưa ra bởinWkiWk

ΔWk(i)=αEWk+μΔWk(i1) trong đó là biến thể của sự mất mát wrt .EWkWk

Giới thiệu tốc độ động lượng cho phép suy giảm các dao động trong độ dốc giảm dần. Ý tưởng hình học đằng sau ý tưởng này có lẽ có thể được hiểu rõ nhất dưới dạng phân tích không gian eigens trong trường hợp tuyến tính. Nếu tỷ lệ giữa giá trị riêng thấp nhất và lớn nhất là lớn thì việc thực hiện giảm độ dốc là chậm ngay cả khi tốc độ học tập lớn do điều hòa của ma trận. Động lượng giới thiệu một số cân bằng trong bản cập nhật giữa các hàm riêng liên quan đến giá trị riêng thấp hơn và lớn hơn.

Để biết thêm chi tiết tôi tham khảo

http://page.mi.fu-berlin.de/rojas/neural/ch CHƯƠNG / K8.pdf


Những gì các underbrace có nghĩa là gì?
David Richerby

được rồi, vậy thuật ngữ động lượng được kết hợp khi tính toán thuật ngữ , thay vì được thêm vào khi tính giá trị trọng số "mới"? Chỉ cần làm rõ, thuật ngữ của bạn có phải là không? hoặc nó là một tỷ lệ của trọng lượng thực tế chứ không phải là sự thay đổi trong tỷ lệ? cảm ơn phản hồi của bạn và liên kết đến bài báo. ΔWkμWk(i1)μΔWk(i1)
guskenny83

cảm ơn bạn đã chỉ ra sai lầm Tất nhiên đó làΔWk(i1)
nico

Bạn có ý nghĩa gì bởi "sự thay đổi của sự mất mát"? Đó có phải là một cái gì đó như "biến thể trong lỗi"?
starbeamrainbowlabs

Nó không có nghĩa gì ngoài đạo hàm của lỗi liên quan đến trọng số.
nico
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.