Như Jed Brown đã đề cập, kết nối giữa độ dốc giảm dần trong tối ưu hóa phi tuyến và bước thời gian của các hệ thống động lực được khám phá lại với một số tần số (có thể hiểu được, vì đó là một kết nối rất thỏa mãn với tâm trí toán học vì nó liên kết hai trường dường như khác nhau). Tuy nhiên, nó hiếm khi trở thành một kết nối hữu ích , đặc biệt là trong bối cảnh bạn mô tả.
Trong vấn đề nghịch đảo, mọi người đang quan tâm đến việc giải quyết (ill-đặt ra) phương trình toán tử với không nằm trong phạm vi của F . (Vấn đề kiểm soát tối ưu của bạn có thể được xem là một ví dụ của nó với F = A - 1 và y δ = y 0y δF( u ) = yδyδFF= A- 1yδ= y0.) Một số chiến lược chính quy hóa (như Tikhonov hoặc Landweber) có thể được hiểu là một bước giả thời gian duy nhất của một lớp nhất định. Sau đó, ý tưởng là sử dụng việc giải thích tham số chính quy làm độ dài bước để có được một số quy tắc lựa chọn (thích nghi, hậu sinh) cho tham số - một vấn đề cơ bản trong các vấn đề nghịch đảo - và có thể thực hiện nhiều bước giả thời gian để tiếp cận giải pháp thực sự, không chính quy (tương tự như tiếp tục số ). Điều này đôi khi được gọi là chính quy hóa liên tục và thường được thảo luận trong bối cảnh của các phương thức thiết lập mức; xem, ví dụ, Chương 6.1 của Kaltenbacher, Scherzer, Neubauer: Các phương pháp chính quy lặp đi lặp lại cho các vấn đề không mắc bệnh không tuyến tính (de Gruyter, 2008).
x k + 1 = x k - γ k ∇ f ( x k ) , ˙ x ( t ) = - ∇ f ( x ( t ) ) ,tối thiểuxf( x )
xk + 1= xk- γk∇ f( xk) ,
γ k x ( t )x˙( t ) = - ∇ f( x ( t ) ) ,x ( 0 ) = x0.
γkx ( t )có (hoặc nên có), độc lập với độ dốc gốc và liệu điều đó có thể không dẫn đến các phương pháp bước thời gian thích hợp (và do đó tối ưu hóa) hơn so với Euler tiêu chuẩn. Một số ví dụ ngoài đỉnh đầu của tôi:
Có một không gian chức năng tự nhiên trong đó dòng chảy gradient sống? Nếu vậy, bước gradient của bạn nên được thực hiện từ cùng một không gian (nghĩa là, sự rời rạc phải phù hợp). Điều này dẫn đến, ví dụ, để tính toán các biểu diễn Riesz của gradient đối với các sản phẩm bên trong khác nhau (đôi khi được gọi là độ dốc Sobolev ) và, trong thực tế, để lặp lại các điều kiện tiên quyết hội tụ nhanh hơn nhiều.
Có lẽ không thuộc về một không gian vectơ, mà thuộc về một đa tạp (ví dụ: ma trận xác định dương đối xứng) hoặc dòng chảy gradient nên bảo tồn một chỉ tiêu nhất định của . Trong trường hợp này, bạn có thể thử áp dụng các sơ đồ bước thời gian bảo toàn cấu trúc (ví dụ: liên quan đến việc kéo lùi đối với nhóm Lie thích hợp hoặc tích hợp hình học).xxx
Nếu không khác biệt nhưng lồi, bước Euler chuyển tiếp tương ứng với phương pháp gốc hạ cấp có thể rất chậm do hạn chế kích thước bước. Mặt khác, một bước Euler ẩn tương ứng với một phương pháp điểm gần nhất , không áp dụng các hạn chế đó (và do đó đã trở nên rất phổ biến trong, ví dụ, xử lý hình ảnh).f
Trong một tĩnh mạch tương tự, các phương pháp như vậy có thể được tăng tốc đáng kể bằng các bước ngoại suy. Một cách để thúc đẩy những điều này là bằng cách quan sát rằng các phương pháp bậc nhất tiêu chuẩn phải chịu nhiều bước nhỏ gần với các bộ giảm thiểu, bởi vì các hướng gradient "dao động" (nghĩ về hình minh họa tiêu chuẩn cho lý do tại sao độ dốc liên hợp vượt trội hơn so với độ dốc thấp nhất). Để khắc phục điều này, người ta có thể "làm ẩm" phép lặp bằng cách không giải hệ động lực bậc một, nhưng hệ thống bậc hai bị ẩm :
cho được chọn phù hợp . Với sự phân biệt thích hợp, điều này dẫn đến một phép lặp (được gọi là phương pháp bóng nặng của Polyak ) có dạng
một1x¨( t ) + a2x˙( t ) = - ∇ f( x ( t ) )
một1, một2xk + 1= xk- γk∇ f( xk) + Αk( xk- xk - 1)
(với tùy thuộc vào ). Ý tưởng tương tự tồn tại cho các phương pháp điểm gần, xem, ví dụ, bài báo http://arxiv.org/pdf/1403.3522.pdf của Dirk Lorenz và Thomas Pock.γk, αkmột1, một2
(Tôi nên bổ sung thêm vào kiến thức của mình, trong hầu hết các trường hợp này, việc giải thích như một hệ thống động lực không thực sự cần thiết cho đạo hàm hoặc bằng chứng hội tụ của thuật toán; người ta có thể lập luận rằng các ý tưởng như "ẩn so với rõ ràng" hoặc dẫn xuất Lie thực sự cơ bản hơn hệ thống động lực hoặc phương pháp giảm độ dốc. Tuy nhiên, sẽ không bao giờ đau lòng khi có một quan điểm khác để xem xét vấn đề từ đó.)
EDIT: Tôi vừa tình cờ thấy một ví dụ tuyệt vời từ bối cảnh thứ hai, trong đó cách giải thích ODE được sử dụng để suy ra các thuộc tính của phương pháp mở rộng của Nesterov và đề xuất các cải tiến:
http://arxiv.org/pdf/1503.01243.pdf
(Lưu ý rằng đây cũng là một ví dụ về quan điểm của Jed Brown, trong đó các tác giả về cơ bản đã khám phá lại điểm 4 ở trên mà không rõ ràng nhận thức được thuật toán của Polyak.)
EDIT 2: Và như một dấu hiệu cho thấy bạn có thể đi được bao xa, xem trang 5 của http://arxiv.org/pdf/1509.03616v1.pdf .