Stochastic Gradient Descent được đi trước bởi Stochastic Xấp xỉ như lần đầu tiên được mô tả bởi Robbins và Monro trong bài báo của họ, Phương pháp xấp xỉ ngẫu nhiên . Kiefer và Wolfowitz sau đó đã xuất bản bài báo của họ, Ước tính ngẫu nhiên về mức tối đa của hàm hồi quydễ nhận biết hơn đối với những người quen thuộc với biến thể ML của Stochastic Xấp xỉ (tức là Stochastic Gradient Descent), như Mark Stone đã chỉ ra trong các bình luận. Những năm 60 đã chứng kiến rất nhiều nghiên cứu dọc theo đó - Dvoretzky, Powell, Blum tất cả các kết quả được công bố mà chúng ta đã cho là ngày hôm nay. Đó là một bước nhảy tương đối nhỏ để chuyển từ phương pháp Robbins và Monro sang phương pháp Kiefer Wolfowitz, và chỉ đơn thuần là một sự sửa đổi vấn đề để sau đó đến Stochastic Gradient Descent (đối với các vấn đề hồi quy). Các bài báo trên được trích dẫn rộng rãi là tiền đề của Stochastic Gradient Descent, như được đề cập trong bài viết đánh giá này của Nocedal, Bottou và Curtis , cung cấp một viễn cảnh lịch sử ngắn gọn từ quan điểm của Machine Learning.
Tôi tin rằng Kushner và Yin trong cuốn sách Các thuật toán và ứng dụng gần đúng và thuật toán đệ quy của họ cho thấy khái niệm này đã được sử dụng trong lý thuyết điều khiển từ những năm 40, nhưng tôi không nhớ là họ có trích dẫn hay không giai thoại, tôi cũng không có quyền truy cập vào cuốn sách của họ để xác nhận điều này.
Herbert Robbins và Sutton Monro Phương pháp xấp xỉ ngẫu nhiên ngẫu nhiên
Biên niên sử về thống kê toán học, Tập. 22, số 3. (tháng 9 năm 1951), trang 400-407.
J. Kiefer và J. Wolfowitz Ước tính ngẫu nhiên về mức tối đa của hàm hồi quy Ann. Môn Toán. Thống kê. Tập 23, Số 3 (1952), 462-466
Phương pháp tối ưu hóa của Leon Bottou và Frank E. Curtis và Jorge Nocedal cho học máy quy mô lớn , Báo cáo kỹ thuật, arXiv: 1606.04838