Câu hỏi được gắn thẻ «gradient-descent»

Gradient descent là một thuật toán tối ưu hóa lặp đầu tiên. Để tìm mức tối thiểu cục bộ của hàm bằng cách sử dụng độ dốc, người ta thực hiện các bước tỷ lệ với âm của độ dốc (hoặc độ dốc gần đúng) của hàm tại điểm hiện tại. Đối với độ dốc dốc ngẫu nhiên cũng có thẻ [sgd].




6
Đối với các vấn đề lồi, độ dốc trong Stochastic Gradient Descent (SGD) luôn luôn hướng đến giá trị cực trị toàn cầu?
Với hàm chi phí lồi, sử dụng SGD để tối ưu hóa, chúng ta sẽ có một gradient (vectơ) tại một điểm nhất định trong quá trình tối ưu hóa. Câu hỏi của tôi là, với điểm trên lồi, liệu độ dốc chỉ trỏ theo hướng mà hàm tăng / …


3
Phối hợp với độ dốc gốc
Tôi đã tự hỏi những trường hợp sử dụng khác nhau là gì đối với hai thuật toán, Phối hợp gốc và Giảm dần . Tôi biết rằng gốc tọa độ có vấn đề với các hàm không trơn tru nhưng nó được sử dụng trong các thuật toán phổ …




3
Từ quy tắc Perceptron đến Gradient Descent: Perceptionron có chức năng kích hoạt sigmoid khác với hồi quy logistic như thế nào?
Về cơ bản, câu hỏi của tôi là trong Perceptionron đa lớp, perceptron được sử dụng với chức năng kích hoạt sigmoid. Vì vậy, trong quy tắc cập nhật được tính nhưy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Perceptron "sigmoid" này khác với hồi quy logistic như thế nào? Tôi có thể nói …

2
Trong các mạng lưới thần kinh, tại sao sử dụng các phương pháp gradient hơn là các siêu dữ liệu khác?
Trong đào tạo mạng lưới thần kinh sâu và nông, tại sao các phương pháp gradient (ví dụ: độ dốc gốc, Nesterov, Newton-Raphson) thường được sử dụng, trái ngược với các siêu dữ liệu khác? Theo siêu dữ liệu, ý tôi là các phương pháp như ủ mô phỏng, tối …





Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.