Khoa học dữ liệu gradient-descent

4

Scikit-learn: Bắt SGDClassifier để dự đoán cũng như hồi quy logistic

Một cách để huấn luyện Hồi quy logistic là sử dụng phương pháp giảm độ dốc ngẫu nhiên, mà scikit-learn cung cấp giao diện. Những gì tôi muốn làm là lấy một scikit-học của SGDClassifier và có nó ghi bàn giống như một Logistic Regression đây . Tuy nhiên, tôi …

24 python logistic-regression scikit-learn gradient-descent

3

Sự khác biệt giữa Gradient Descent và Stochastic Gradient Descent là gì?

Sự khác biệt giữa Gradient Descent và Stochastic Gradient Descent là gì? Tôi không quen thuộc lắm với những điều này, bạn có thể mô tả sự khác biệt bằng một ví dụ ngắn không?

22 machine-learning neural-network deep-learning gradient-descent

4

Liệu độ dốc gốc luôn hội tụ đến mức tối ưu?

Tôi tự hỏi liệu có bất kỳ kịch bản trong đó giảm dần độ dốc không hội tụ đến mức tối thiểu. Tôi biết rằng độ dốc không phải lúc nào cũng được đảm bảo để hội tụ đến mức tối ưu toàn cầu. Tôi cũng nhận thức được rằng …

20 machine-learning neural-network deep-learning optimization gradient-descent

1

Tại sao ReLU tốt hơn các chức năng kích hoạt khác

Ở đây , câu trả lời đề cập đến việc biến mất và làm nổ các gradient có sigmoidchức năng kích hoạt giống như nhưng tôi đoán, Relucó một nhược điểm và đó là giá trị mong đợi của nó. không có giới hạn cho đầu ra của Reluvà vì …

17 machine-learning neural-network deep-learning gradient-descent activation-function

4

Là Gradient Descent trung tâm cho mọi trình tối ưu hóa?

Tôi muốn biết liệu Gradient có phải là thuật toán chính được sử dụng trong các trình tối ưu hóa như Adam, Adagrad, RMSProp và một số trình tối ưu hóa khác hay không.

13 machine-learning neural-network deep-learning optimization gradient-descent

1

Tôi nên sử dụng bao nhiêu tế bào LSTM?

Có bất kỳ quy tắc nào (hoặc quy tắc thực tế) liên quan đến số lượng tế bào LSTM tối thiểu, tối đa và "hợp lý" mà tôi nên sử dụng không? Cụ thể tôi có liên quan đến BasicLSTMCell từ TensorFlow và num_unitstài sản. Hãy giả sử rằng tôi …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Tại sao nó tăng tốc độ giảm độ dốc nếu chức năng trơn tru?

Bây giờ tôi đã đọc một cuốn sách có tựa đề "Học máy thực hành với Scikit-Learn và TensorFlow" và trên chương 11, nó có mô tả sau đây về lời giải thích của ELU (ReLU ReLential). Thứ ba, chức năng hoạt động trơn tru ở mọi nơi, bao gồm …

10 deep-learning gradient-descent

1

Làm thế nào linh hoạt là liên kết giữa chức năng mục tiêu và chức năng kích hoạt lớp đầu ra?

Có vẻ như tiêu chuẩn trong nhiều gói mạng thần kinh để ghép nối hàm mục tiêu được tối thiểu hóa với chức năng kích hoạt trong lớp đầu ra. Ví dụ, đối với một lớp đầu ra tuyến tính được sử dụng để hồi quy, nó là tiêu chuẩn …

10 neural-network gradient-descent

2

Độ dốc dốc ngẫu nhiên dựa trên các hoạt động vector?

giả sử rằng tôi muốn đào tạo một thuật toán hồi quy giảm dần độ dốc ngẫu nhiên bằng cách sử dụng bộ dữ liệu có N mẫu. Vì kích thước của tập dữ liệu là cố định, tôi sẽ sử dụng lại dữ liệu T lần. Ở mỗi lần …

10 python gradient-descent regression

2

Tại sao tốc độ học tập khiến trọng lượng của mạng lưới thần kinh của tôi tăng vọt?

Tôi đang sử dụng tenorflow để viết các mạng thần kinh đơn giản cho một chút nghiên cứu và tôi đã gặp nhiều vấn đề với trọng lượng 'nan' trong khi đào tạo. Tôi đã thử nhiều giải pháp khác nhau như thay đổi trình tối ưu hóa, thay đổi …

9 machine-learning python tensorflow optimization gradient-descent

1

Hiểu về bỏ học và giảm độ dốc

Tôi đang xem xét làm thế nào để thực hiện bỏ học trên mạng lưới thần kinh sâu sắc và tôi đã tìm thấy một cái gì đó phản trực quan. Trong kích hoạt mặt nạ bỏ qua pha phía trước với một thang đo ngẫu nhiên 1 và 0 …

9 neural-network deep-learning gradient-descent

2

Hiểu toán học của AdaGrad và AdaDelta

Tôi đã xây dựng một số mô hình cho một dự án, nhưng tôi không thể xoay quanh toán học của thuật toán Adagrad và Adadelta. Tôi không hiểu làm thế nào vanilla gradient gốc hoạt động và tôi đã viết mã để làm cho nó hoạt động thành công. …

8 machine-learning gradient-descent

2

Quá mức có thể xảy ra trong các thuật toán tối ưu hóa nâng cao?

Trong khi tham gia một khóa học trực tuyến về học máy của Andrew Ng trên coursera, tôi đã bắt gặp một chủ đề gọi là quá mức . Tôi biết điều đó có thể xảy ra khi sử dụng độ dốc giảm dần trong hồi quy tuyến tính hoặc …

8 machine-learning regression optimization gradient-descent overfitting

1

Triển khai Stochastic Gradient Descent trong Python

Tôi đang cố gắng thực hiện thuật toán Stochastic Gradient Descent cơ bản cho hồi quy tuyến tính 2 chiều trong python. Tôi đã được cấp một số mã soạn sẵn cho vanilla GD và tôi đã cố gắng chuyển đổi nó để làm việc cho SGD. Cụ thể - …

7 linear-regression gradient-descent

1

Tại sao ReLU không bị rò rỉ luôn thích ReLU hơn với độ dốc bằng 0 cho x <0?

Đối với tôi, ReLU bị rò rỉ sẽ có hiệu suất tốt hơn nhiều vì ReLU tiêu chuẩn không thể sử dụng một nửa không gian của nó (x <0 trong đó độ dốc bằng 0). Nhưng điều này không xảy ra và trong thực tế hầu hết mọi người …

7 neural-network gradient-descent

Câu hỏi được gắn thẻ «gradient-descent»