Thống kê và dữ liệu lớn gradient-descent

6

Tại sao không sử dụng đạo hàm thứ ba để tối ưu hóa số?

Nếu người Hessian rất tốt để tối ưu hóa (xem ví dụ phương pháp của Newton ), tại sao dừng lại ở đó? Chúng ta hãy sử dụng các dẫn xuất thứ ba, thứ tư, thứ năm và thứ sáu? Tại sao không?

29 optimization gradient-descent hessian

4

Hàm chi phí từ Logistic Regression được tạo ra như thế nào

Tôi đang tham gia khóa học Machine Learning Stanford trên Coursera. Trong chương về Hồi quy logistic, hàm chi phí là: Sau đó, nó được dẫn xuất ở đây: Tôi đã thử lấy đạo hàm của hàm chi phí nhưng tôi có một thứ hoàn toàn khác. Đạo hàm thu …

29 regression logistic gradient-descent derivative

2

Sự khác biệt giữa EM và Gradient Ascent là gì?

Sự khác biệt giữa các thuật toán EM (Tối đa hóa kỳ vọng) và Gradient Ascent (hoặc gốc) là gì? Có bất kỳ điều kiện theo đó họ là tương đương?

28 gradient-descent expectation-maximization

6

Đối với các vấn đề lồi, độ dốc trong Stochastic Gradient Descent (SGD) luôn luôn hướng đến giá trị cực trị toàn cầu?

Với hàm chi phí lồi, sử dụng SGD để tối ưu hóa, chúng ta sẽ có một gradient (vectơ) tại một điểm nhất định trong quá trình tối ưu hóa. Câu hỏi của tôi là, với điểm trên lồi, liệu độ dốc chỉ trỏ theo hướng mà hàm tăng / …

25 neural-networks optimization gradient-descent sgd convex

1

Làm thế nào để xác định điều kiện chấm dứt cho độ dốc gốc?

Trên thực tế, tôi muốn hỏi bạn làm thế nào tôi có thể xác định điều kiện kết thúc cho việc giảm độ dốc. Tôi có thể dừng nó dựa trên số lần lặp, tức là xem xét các giá trị tham số cho 100 lần lặp không? Hoặc tôi …

24 algorithms optimization gradient-descent

3

Phối hợp với độ dốc gốc

Tôi đã tự hỏi những trường hợp sử dụng khác nhau là gì đối với hai thuật toán, Phối hợp gốc và Giảm dần . Tôi biết rằng gốc tọa độ có vấn đề với các hàm không trơn tru nhưng nó được sử dụng trong các thuật toán phổ …

23 optimization gradient-descent

1

Gradient backpropagation thông qua các kết nối bỏ qua ResNet

Tôi tò mò về cách độ dốc được truyền ngược qua mạng thần kinh bằng cách sử dụng các mô đun ResNet / bỏ qua các kết nối. Tôi đã thấy một vài câu hỏi về ResNet (ví dụ: Mạng thần kinh có kết nối lớp bỏ qua ) nhưng …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

Tại sao sử dụng độ dốc giảm dần với các mạng thần kinh?

Khi đào tạo một mạng lưới thần kinh bằng thuật toán lan truyền ngược, phương pháp giảm độ dốc được sử dụng để xác định các cập nhật trọng lượng. Câu hỏi của tôi là: Thay vì sử dụng phương pháp giảm độ dốc để từ từ xác định điểm …

22 neural-networks gradient-descent backpropagation

3

Gradient Descent có thể cho các SVM được nhân (nếu vậy, tại sao mọi người sử dụng Lập trình bậc hai)?

Tại sao mọi người sử dụng các kỹ thuật lập trình bậc hai (như SMO) khi xử lý các SVM được nhân? Điều gì sai với Gradient Descent? Có thể sử dụng với hạt nhân hay nó quá chậm (và tại sao?). Đây là một bối cảnh nhỏ hơn: cố …

21 svm kernel-trick gradient-descent

3

Từ quy tắc Perceptron đến Gradient Descent: Perceptionron có chức năng kích hoạt sigmoid khác với hồi quy logistic như thế nào?

Về cơ bản, câu hỏi của tôi là trong Perceptionron đa lớp, perceptron được sử dụng với chức năng kích hoạt sigmoid. Vì vậy, trong quy tắc cập nhật được tính nhưy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Perceptron "sigmoid" này khác với hồi quy logistic như thế nào? Tôi có thể nói …

21 logistic classification neural-networks gradient-descent perceptron

2

Trong các mạng lưới thần kinh, tại sao sử dụng các phương pháp gradient hơn là các siêu dữ liệu khác?

Trong đào tạo mạng lưới thần kinh sâu và nông, tại sao các phương pháp gradient (ví dụ: độ dốc gốc, Nesterov, Newton-Raphson) thường được sử dụng, trái ngược với các siêu dữ liệu khác? Theo siêu dữ liệu, ý tôi là các phương pháp như ủ mô phỏng, tối …

20 neural-networks optimization deep-learning gradient-descent backpropagation

3

Khi các thuật toán di truyền là một lựa chọn tốt để tối ưu hóa?

Các thuật toán di truyền là một dạng của phương pháp tối ưu hóa. Thường thì độ dốc gốc ngẫu nhiên và các dẫn xuất của nó là lựa chọn tốt nhất để tối ưu hóa chức năng, nhưng thuật toán di truyền đôi khi vẫn được sử dụng. Ví …

20 machine-learning optimization gradient-descent genetic-algorithms

3

Có thể có nhiều giải pháp tối ưu cục bộ khi chúng ta giải quyết hồi quy tuyến tính không?

Tôi đọc tuyên bố này trong một kỳ thi đúng / sai cũ: Chúng ta có thể nhận được nhiều giải pháp tối ưu cục bộ nếu chúng ta giải quyết vấn đề hồi quy tuyến tính bằng cách giảm thiểu tổng các lỗi bình phương bằng cách sử dụng …

19 least-squares gradient-descent convex

3

Làm thế nào để kích thước lô ảnh hưởng đến sự hội tụ của SGD và tại sao?

Tôi đã thấy kết luận tương tự từ nhiều cuộc thảo luận, khi kích thước xe buýt nhỏ càng lớn, sự hội tụ của SGD thực sự trở nên khó khăn / tệ hơn, ví dụ như bài báo này và câu trả lời này . Ngoài ra, tôi đã …

18 machine-learning neural-networks optimization gradient-descent sgd

3

Làm thế nào có thể giảm độ dốc ngẫu nhiên tránh được vấn đề tối thiểu cục bộ?

Tôi biết rằng gốc dốc ngẫu nhiên có hành vi ngẫu nhiên, nhưng tôi không biết tại sao. Có bất kỳ lời giải thích về điều này?

18 machine-learning random-variable gradient-descent

Câu hỏi được gắn thẻ «gradient-descent»