Câu hỏi được gắn thẻ «sgd»

Stochastic gradient descent (SGD) là một biến thể của gradient descent trong đó chỉ một tập hợp con nhỏ ("lô nhỏ") của các ví dụ đào tạo được sử dụng để tính toán gradient trên mỗi lần lặp.



6
Đối với các vấn đề lồi, độ dốc trong Stochastic Gradient Descent (SGD) luôn luôn hướng đến giá trị cực trị toàn cầu?
Với hàm chi phí lồi, sử dụng SGD để tối ưu hóa, chúng ta sẽ có một gradient (vectơ) tại một điểm nhất định trong quá trình tối ưu hóa. Câu hỏi của tôi là, với điểm trên lồi, liệu độ dốc chỉ trỏ theo hướng mà hàm tăng / …


1
Làm thế nào để giảm độ dốc ngẫu nhiên có thể tiết kiệm thời gian so với độ dốc gốc tiêu chuẩn?
Tiêu chuẩn Gradient Descent sẽ tính toán độ dốc cho toàn bộ tập dữ liệu đào tạo. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Đối với số lượng epoch được xác định trước, trước tiên, chúng tôi tính toán vectơ gradient …


1
RMSProp và Adam vs SGD
Tôi đang thực hiện các thử nghiệm trên bộ xác thực EMNIST bằng cách sử dụng các mạng với RMSProp, Adam và SGD. Tôi đang đạt được độ chính xác 87% với SGD (tỷ lệ học là 0,1) và bỏ học (thăm dò bỏ học 0,1) cũng như chính quy …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.