Câu hỏi được gắn thẻ «gradient-descent»

Gradient descent là một thuật toán tối ưu hóa lặp đầu tiên. Để tìm mức tối thiểu cục bộ của hàm bằng cách sử dụng độ dốc, người ta thực hiện các bước tỷ lệ với âm của độ dốc (hoặc độ dốc gần đúng) của hàm tại điểm hiện tại. Đối với độ dốc dốc ngẫu nhiên cũng có thẻ [sgd].




1
Làm thế nào để giảm độ dốc ngẫu nhiên có thể tiết kiệm thời gian so với độ dốc gốc tiêu chuẩn?
Tiêu chuẩn Gradient Descent sẽ tính toán độ dốc cho toàn bộ tập dữ liệu đào tạo. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Đối với số lượng epoch được xác định trước, trước tiên, chúng tôi tính toán vectơ gradient …




1
Tại sao chúng ta không sử dụng tỷ lệ học tập không liên tục cho độ dốc tốt cho những thứ khác ngoài mạng lưới thần kinh?
Văn học học sâu có đầy đủ các thủ thuật thông minh với việc sử dụng tỷ lệ học tập không liên tục theo độ dốc. Những thứ như phân rã theo cấp số nhân, RMSprop, Adagrad, v.v ... rất dễ thực hiện và có sẵn trong mọi gói học …








Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.