Ai đã phát minh ra độ dốc dốc ngẫu nhiên?


36

Tôi đang cố gắng để hiểu được lịch sử của Gradient descentgradient descent Stochastic . Gradient gốc được phát minh ở Cauchy vào năm 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . Trang 536 Vang538 Để biết thêm thông tin về nó, hãy xem tại đây .

Kể từ đó, các phương pháp giảm độ dốc tiếp tục phát triển và tôi không quen thuộc với lịch sử của chúng. Đặc biệt tôi quan tâm đến việc phát minh ra gốc dốc ngẫu nhiên.

Một tài liệu tham khảo có thể được sử dụng trong một bài báo học thuật hơn là hoan nghênh.


3
Tôi đã học về SGD trước khi học máy, vì vậy nó phải có trước toàn bộ điều này
Aksakal

2
Chà, Cauchy chắc chắn đã phát minh ra GD trước khi học máy nên tôi sẽ không ngạc nhiên khi SGC cũng được phát minh trước đó.
DaL

3
Kiefer-Wolfowitz Stochastic Xấp xỉ en.wikipedia.org/wiki/Stochastic_appro xấp xỉ hầu hết đều ở đó, ngoài việc không trực tiếp "mô phỏng" cho gradient.
Mark L. Stone

3
"Stochastic Gradient Descent" từ ML giống như "Phương pháp nâng cấp ngẫu nhiên" từ tối ưu hóa lồi. Và các phương pháp nâng cấp đã được phát hiện trong giai đoạn 1960-1970 tại Liên Xô, Moscow. Có lẽ cũng ở Mỹ. Tôi đã xem một video mà Boris Polyak (ông là tác giả của phương pháp bóng nặng) nói rằng ông (và tất cả mọi người) bắt đầu nghĩ về các phương pháp nâng cấp vào năm 1970. ( youtube.com/watch?v=2PcidcPxvyk&t=1963s ) ....
bruziuz

Câu trả lời:


27

Stochastic Gradient Descent được đi trước bởi Stochastic Xấp xỉ như lần đầu tiên được mô tả bởi Robbins và Monro trong bài báo của họ, Phương pháp xấp xỉ ngẫu nhiên . Kiefer và Wolfowitz sau đó đã xuất bản bài báo của họ, Ước tính ngẫu nhiên về mức tối đa của hàm hồi quydễ nhận biết hơn đối với những người quen thuộc với biến thể ML của Stochastic Xấp xỉ (tức là Stochastic Gradient Descent), như Mark Stone đã chỉ ra trong các bình luận. Những năm 60 đã chứng kiến ​​rất nhiều nghiên cứu dọc theo đó - Dvoretzky, Powell, Blum tất cả các kết quả được công bố mà chúng ta đã cho là ngày hôm nay. Đó là một bước nhảy tương đối nhỏ để chuyển từ phương pháp Robbins và Monro sang phương pháp Kiefer Wolfowitz, và chỉ đơn thuần là một sự sửa đổi vấn đề để sau đó đến Stochastic Gradient Descent (đối với các vấn đề hồi quy). Các bài báo trên được trích dẫn rộng rãi là tiền đề của Stochastic Gradient Descent, như được đề cập trong bài viết đánh giá này của Nocedal, Bottou và Curtis , cung cấp một viễn cảnh lịch sử ngắn gọn từ quan điểm của Machine Learning.

Tôi tin rằng Kushner và Yin trong cuốn sách Các thuật toán và ứng dụng gần đúng và thuật toán đệ quy của họ cho thấy khái niệm này đã được sử dụng trong lý thuyết điều khiển từ những năm 40, nhưng tôi không nhớ là họ có trích dẫn hay không giai thoại, tôi cũng không có quyền truy cập vào cuốn sách của họ để xác nhận điều này.

Herbert Robbins và Sutton Monro Phương pháp xấp xỉ ngẫu nhiên ngẫu nhiên Biên niên sử về thống kê toán học, Tập. 22, số 3. (tháng 9 năm 1951), trang 400-407.

J. Kiefer và J. Wolfowitz Ước tính ngẫu nhiên về mức tối đa của hàm hồi quy Ann. Môn Toán. Thống kê. Tập 23, Số 3 (1952), 462-466

Phương pháp tối ưu hóa của Leon Bottou và Frank E. Curtis và Jorge Nocedal cho học máy quy mô lớn , Báo cáo kỹ thuật, arXiv: 1606.04838


Bạn có thể cung cấp tài liệu tham khảo chính xác? Và đối với việc phát minh ra SGD, nó dường như ở độ tuổi 40 nhưng không rõ là do ai và ở đâu?
DaL

Chắc chắn nó được nhiều người tin là Robbins và Monro vào năm 1951 với Thuật toán xấp xỉ ngẫu nhiên . Tôi đã nghe nói rằng một cái gì đó tương tự xuất hiện trong tài liệu lý thuyết điều khiển trong những năm 40 (như tôi đã nói, tôi nghĩ từ Kushner và Yin nhưng tôi không có cuốn sách đó tiện dụng), nhưng ngoài một nơi mọi người dường như đều trích dẫn Robbins và Monro, bao gồm cả Nocedal et al. tài liệu tham khảo tôi liên kết đến.
David Kozak

Vì vậy, ứng cử viên hàng đầu của chúng tôi bây giờ là H. Robbins và S. Monro. Một phương pháp gần đúng ngẫu nhiên. Biên niên sử về thống kê toán học, 22 (3): 400 Linh407, 1951., như được viết bằng Nocedal, Bottou, và Curtis trong pdfs.semanticscholar.org 432dd
/ từ

Vì vậy, nó được gọi là nguồn gốc của SGD nhưng trong bản tóm tắt (thực ra là trừu tượng trong các thuật ngữ ngày nay), nó được viết "M (x) được giả sử là hàm đơn điệu của x nhưng không biết đến vn cho người thí nghiệm, và nó mong muốn tìm được nghiệm x = 0 của phương trình thc M (x) = a, trong đó a là hằng số đã cho. " Nếu M (x) không xác định, người ta không thể lấy được nó. Có lẽ đó là một tổ tiên cổ xưa?
DaL

Đồng ý, trong một số ý nghĩa. Kiefer Wolfowitz đã sử dụng phân tích về điều này để đưa ra bài báo của họ dễ nhận biết hơn ở dạng chúng ta thấy ngày nay. Như đã đề cập ở trên bởi Mark Stone. Bài viết của họ có thể được tìm thấy ở đây: projecteuclid.org/doad/pdf_1/euclid.aoms/1177729392 .
David Kozak

14

Xem

Rosenblatt F. Perceptionron: Một mô hình xác suất để lưu trữ thông tin và tổ chức trong não. Đánh giá tâm lý. 1958 tháng 11; 65 (6): 386.

Tôi không chắc liệu SGD có được phát minh ra trước đây trong tài liệu tối ưu hóa hay không. Có lẽ anh ấy là người nhưng ở đây tôi tin rằng anh ấy mô tả một ứng dụng của SGD để huấn luyện một tri giác.

Nếu hệ thống ở trạng thái củng cố tích cực, thì AV dương sẽ được thêm vào giá trị của tất cả các đơn vị A hoạt động trong bộ nguồn của phản hồi "bật", trong khi AV âm tính được thêm vào các đơn vị hoạt động trong nguồn - bộ phản hồi "tắt".

Ông gọi đây là "hai loại cốt thép".

Ông cũng tham khảo một cuốn sách với nhiều hơn về các "hệ thống hai phần" này.

Rosenblatt F. Perceptionron: một lý thuyết về sự phân tách thống kê trong các hệ thống nhận thức (Project Para). Phòng thí nghiệm hàng không Cornell; 1958.


1
Một bước tiến tốt, cảm ơn! Tôi tìm thấy tài liệu tham khảo trực tuyến đầu tiên ở đây citeseerx.ist.psu.edu/viewdoc/. Tôi sẽ xem qua nó. Tuy nhiên, tôi hy vọng sẽ tìm thấy thuật toán rõ ràng và trang trọng hơn.
DaL

3
+1 cho nhận xét về tối ưu hóa. Vì nó được sử dụng trong Machine Learning để tối ưu hóa và từ đó tối ưu hóa đã trở thành vấn đề lớn 40 hoặc 50 năm trước ML - và máy tính cũng tham gia vào bức tranh cùng một lúc - điều đó có vẻ như là một hướng dẫn tốt.
Wayne

Tôi không hiểu tại sao bạn nói rằng trích dẫn này mô tả SGD.
amip nói rằng Phục hồi lại

@amoeba hy vọng tôi không phạm sai lầm, chỉ đọc lướt qua tờ giấy, nhưng tôi mặc dù ông đã mô tả bản cập nhật perceptron chỉ là SGD với tốc độ học hỏi không đổi.
dùng0

3
Đúng rồi. Tôi chỉ nói rằng khía cạnh ngẫu nhiên không rõ ràng từ trích dẫn bạn đã chọn. Ý tôi là, "stochastic" GD đơn giản có nghĩa là các cập nhật được thực hiện một mẫu đào tạo tại một thời điểm (thay vì tính toán độ dốc bằng cách sử dụng tất cả các mẫu đào tạo có sẵn). Thuật toán được đưa ra trong en.wikipedia.org/wiki/Perceptron#Steps làm cho khía cạnh "ngẫu nhiên" này rõ ràng ngay lập tức trong bước # 2.
amip nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.