Câu hỏi được gắn thẻ «gradient-descent»

Gradient descent là một thuật toán tối ưu hóa lặp đầu tiên. Để tìm mức tối thiểu cục bộ của hàm bằng cách sử dụng độ dốc, người ta thực hiện các bước tỷ lệ với âm của độ dốc (hoặc độ dốc gần đúng) của hàm tại điểm hiện tại. Đối với độ dốc dốc ngẫu nhiên cũng có thẻ [sgd].









4
Sự khác biệt giữa giảm dần độ dốc dựa trên động lượng và độ dốc tăng tốc của Nesterov là gì?
Vì vậy, độ dốc gốc dốc hoạt động như sau: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g Trong đó là bản cập nhật trọng số trước đó và là độ dốc hiện tại đối với các tham số , là tốc độ học tập và là một hằng số.g p l r s e l f …



1
Mạng lưới thần kinh: động lượng thay đổi trọng lượng và giảm cân
Động lượng được sử dụng để làm giảm các dao động về thay đổi trọng lượng trong các lần lặp liên tiếp:αα\alpha nơiE(w)là hàm lỗi,w- vector của trọng lượng,η- Tỷ lệ học.Δ ωTôi( T + 1 ) = - η∂E∂wTôi+ Alpha delta wTôi( t ) ,ΔωTôi(t+1)= =-η∂E∂wTôi+αΔωTôi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial …

4
Làm thế nào để chức năng kích hoạt trực tuyến giải quyết vấn đề gradient biến mất trong các mạng thần kinh?
Tôi tìm thấy đơn vị tuyến tính chỉnh lưu (ReLU) được ca ngợi ở một số nơi như là một giải pháp cho vấn đề độ dốc biến mất cho các mạng thần kinh. Nghĩa là, người ta sử dụng max (0, x) làm chức năng kích hoạt. Khi kích …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.