Lý tưởng nhất, bạn cần cập nhật trọng số bằng cách xem qua tất cả các mẫu trong bộ dữ liệu. Điều này được gọi là Batch Gradient Descent . Nhưng, như không. ví dụ đào tạo tăng lên, tính toán trở nên rất lớn và đào tạo sẽ rất chậm. Với sự ra đời của học tập sâu, quy mô đào tạo là hàng triệu và tính toán sử dụng tất cả các ví dụ đào tạo là rất không thực tế và rất chậm.
Đây là nơi, hai kỹ thuật tối ưu hóa trở nên nổi bật.
- Giảm dần hàng loạt
- Stochastic Gradient Descent (SGD)
Trong giảm dần độ dốc hàng loạt nhỏ, bạn sử dụng kích thước lô nhỏ hơn đáng kể so với tổng số không. về các ví dụ đào tạo và cập nhật trọng lượng của bạn sau khi đi qua các ví dụ này.
Trong giảm dần độ dốc ngẫu nhiên, bạn cập nhật các trọng số sau khi đi qua từng ví dụ đào tạo.
Đến với những lợi thế và bất lợi của ba phương pháp chúng tôi đã thảo luận.
Độ dốc hàng loạt dần dần hội tụ đến mức tối thiểu toàn cầu nhưng nó chậm và đòi hỏi sức mạnh tính toán rất lớn.
Độ dốc dốc ngẫu nhiên hội tụ nhanh nhưng không đến mức tối thiểu toàn cầu, nó hội tụ ở đâu đó gần mức tối thiểu toàn cầu và dao động quanh điểm đó, nhưng không hội tụ đến mức tối thiểu toàn cầu. Nhưng, điểm hội tụ trong gốc dốc Stochastic là đủ tốt cho tất cả các mục đích thực tế.
Mini-Batch gradient là một sự đánh đổi hai phương pháp trên. Tuy nhiên, nếu bạn đã triển khai véc tơ về cập nhật trọng số và bạn
đang đào tạo với thiết lập đa lõi hoặc gửi đào tạo cho
nhiều máy, đây là phương pháp tốt nhất cả về thời gian đào tạo và hội tụ đến mức tối thiểu toàn cầu.
Bạn có thể vẽ đồ thị hàm chi phí, không có. lặp đi lặp lại để hiểu sự khác biệt giữa hội tụ trong cả 3 loại độ dốc gốc.
Âm mưu giảm dần hàng loạt rơi trơn tru và chậm và được ổn định và đạt mức tối thiểu toàn cầu.
Âm mưu gốc dốc ngẫu nhiên sẽ có dao động, sẽ giảm nhanh nhưng dao động xung quanh mức tối thiểu toàn cầu.
Đây là một số blog có giải thích chi tiết về ưu điểm, nhược điểm của từng phương pháp và cả biểu đồ về cách thay đổi hàm chi phí cho cả ba phương pháp với các lần lặp.
https://adventuresinmachinelearning.com/stochastic-gradient-descent/
https://machinelearningmastery.com/gentle-intributiontion-mini-batch-gradient-descent-configure-batch-size/