Có phải ai cũng biết rằng một số vấn đề tối ưu hóa tương đương với bước thời gian?


19

y0βRybạn

12y-y02+β2bạn2
Mộty= =bạn.
y,y0,bạnRnMộtRn×n

Hình thành Lagrangian, tìm kiếm các điểm dừng và loại bỏ điều khiển chúng ta có các điều kiện đặt hàng đầu tiên Mở đầu bằng trong phương trình thứ nhất và trong lần thứ hai, chúng ta có thể viết các phương trình bình thường \ started {align} (I + \ beta AA ^ T) \ lambda & = \ beta A y_0 \\ (I + \ beta A ^ TA) y & = y_0 \ end {align} Chúng ta có thể hiểu đây là các bước duy nhất của xấp xỉ Euler lạc hậu với các phương trình vi phân \ started {align} \ frac {\ part \ lambda} {\ part b} & = -AA ^ T \ lambda + A y_0, \ quad \ lambda (0) = 0 \\ \ frac {\ part y} {\ part b} & = -A ^ TA y, \ quad y (0) = y_0 \ end {căn chỉnh}bạn

MộtTλ= =y0-yMộty= =1βλ
MộtMộtTbước sóng
(tôi+βMộtMộtT)λ= =βMộty0(tôi+βMộtTMột)y= =y0
λb= =-MộtMộtTλ+Mộty0,λ(0)= =0yb= =-MộtTMộty,y(0)= =y0
với pseudotimestep β .

Câu hỏi của tôi: kết nối này có nổi tiếng không? Được thảo luận trong các phương pháp điều trị tiêu chuẩn về thời gian hoặc tối ưu hóa? (Đối với tôi, nó dường như cung cấp một số loại kết nối trực quan giữa chúng.)

Ý tưởng có vẻ đơn giản đến mức nó phải được biết đến, nhưng việc không tìm kiếm tài liệu hay nói chuyện với mọi người đã cho tôi một nguồn tốt để thảo luận về vấn đề này. Gần nhất tôi tìm thấy là một bài báo của O. Scherzer và J. We Richt (J. Math Imaging Vision 12 (2000) trang 43-63) trong đó nêu kết nối trong câu đầu tiên của bản tóm tắt (!) Nhưng không cung cấp bất kỳ tài liệu tham khảo hoặc khám phá kết nối ở bất kỳ độ sâu nào.

Lý tưởng nhất là tôi đang tìm kiếm một tài liệu tham khảo không chỉ nêu kết nối mà còn khám phá một số hậu quả (ví dụ, người ta có thể tưởng tượng ra một vấn đề tối ưu hóa với bước Euler chuyển tiếp giá rẻ).


1
Nói rộng ra (và như bạn có thể đã biết), phương pháp tiếp cận giả thời gian là phương pháp nổi tiếng để giải phương trình đại số (như hệ thống KKT mà bạn mô tả), bằng cách đưa ra vấn đề là tìm trạng thái ổn định của một tập ODE trong đó biến thời gian thực sự là một thời gian giả. Tuy nhiên, tôi không biết về bất kỳ kết nối cụ thể nào liên quan đến một trường hợp cụ thể của các điều kiện KKT cho một bước Euler lạc hậu duy nhất.
Geoff Oxberry

Bên cạnh đó, bạn chỉ cần giải một trong hai ODE, vì bạn có thể sử dụng một trong các điều kiện cần thiết thứ nhất để tính toán, ví dụ: từ . λyλ
Christian Clason

Câu trả lời:


17

Như Jed Brown đã đề cập, kết nối giữa độ dốc giảm dần trong tối ưu hóa phi tuyến và bước thời gian của các hệ thống động lực được khám phá lại với một số tần số (có thể hiểu được, vì đó là một kết nối rất thỏa mãn với tâm trí toán học vì nó liên kết hai trường dường như khác nhau). Tuy nhiên, nó hiếm khi trở thành một kết nối hữu ích , đặc biệt là trong bối cảnh bạn mô tả.

Trong vấn đề nghịch đảo, mọi người đang quan tâm đến việc giải quyết (ill-đặt ra) phương trình toán tử với không nằm trong phạm vi của F . (Vấn đề kiểm soát tối ưu của bạn có thể được xem là một ví dụ của nó với F = A - 1y δ = y 0y δF(bạn)= =yδyδFF= =Một-1yδ= =y0.) Một số chiến lược chính quy hóa (như Tikhonov hoặc Landweber) có thể được hiểu là một bước giả thời gian duy nhất của một lớp nhất định. Sau đó, ý tưởng là sử dụng việc giải thích tham số chính quy làm độ dài bước để có được một số quy tắc lựa chọn (thích nghi, hậu sinh) cho tham số - một vấn đề cơ bản trong các vấn đề nghịch đảo - và có thể thực hiện nhiều bước giả thời gian để tiếp cận giải pháp thực sự, không chính quy (tương tự như tiếp tục số ). Điều này đôi khi được gọi là chính quy hóa liên tục và thường được thảo luận trong bối cảnh của các phương thức thiết lập mức; xem, ví dụ, Chương 6.1 của Kaltenbacher, Scherzer, Neubauer: Các phương pháp chính quy lặp đi lặp lại cho các vấn đề không mắc bệnh không tuyến tính (de Gruyter, 2008).

x k + 1 = x k - γ kf ( x k ) , ˙ x ( t ) = - f ( x ( t ) ) ,tối thiểuxf(x)

xk+1= =xk-γkf(xk),
γ k x ( t )
x˙(t)= =-f(x(t)),x(0)= =x0.
γkx(t)có (hoặc nên có), độc lập với độ dốc gốc và liệu điều đó có thể không dẫn đến các phương pháp bước thời gian thích hợp (và do đó tối ưu hóa) hơn so với Euler tiêu chuẩn. Một số ví dụ ngoài đỉnh đầu của tôi:
  1. Có một không gian chức năng tự nhiên trong đó dòng chảy gradient sống? Nếu vậy, bước gradient của bạn nên được thực hiện từ cùng một không gian (nghĩa là, sự rời rạc phải phù hợp). Điều này dẫn đến, ví dụ, để tính toán các biểu diễn Riesz của gradient đối với các sản phẩm bên trong khác nhau (đôi khi được gọi là độ dốc Sobolev ) và, trong thực tế, để lặp lại các điều kiện tiên quyết hội tụ nhanh hơn nhiều.

  2. Có lẽ không thuộc về một không gian vectơ, mà thuộc về một đa tạp (ví dụ: ma trận xác định dương đối xứng) hoặc dòng chảy gradient nên bảo tồn một chỉ tiêu nhất định của . Trong trường hợp này, bạn có thể thử áp dụng các sơ đồ bước thời gian bảo toàn cấu trúc (ví dụ: liên quan đến việc kéo lùi đối với nhóm Lie thích hợp hoặc tích hợp hình học).xxx

  3. Nếu không khác biệt nhưng lồi, bước Euler chuyển tiếp tương ứng với phương pháp gốc hạ cấp có thể rất chậm do hạn chế kích thước bước. Mặt khác, một bước Euler ẩn tương ứng với một phương pháp điểm gần nhất , không áp dụng các hạn chế đó (và do đó đã trở nên rất phổ biến trong, ví dụ, xử lý hình ảnh).f

  4. Trong một tĩnh mạch tương tự, các phương pháp như vậy có thể được tăng tốc đáng kể bằng các bước ngoại suy. Một cách để thúc đẩy những điều này là bằng cách quan sát rằng các phương pháp bậc nhất tiêu chuẩn phải chịu nhiều bước nhỏ gần với các bộ giảm thiểu, bởi vì các hướng gradient "dao động" (nghĩ về hình minh họa tiêu chuẩn cho lý do tại sao độ dốc liên hợp vượt trội hơn so với độ dốc thấp nhất). Để khắc phục điều này, người ta có thể "làm ẩm" phép lặp bằng cách không giải hệ động lực bậc một, nhưng hệ thống bậc hai bị ẩm : cho được chọn phù hợp . Với sự phân biệt thích hợp, điều này dẫn đến một phép lặp (được gọi là phương pháp bóng nặng của Polyak ) có dạng

    một1x¨(t)+một2x˙(t)= =-f(x(t))
    một1,một2
    xk+1= =xk-γkf(xk)+αk(xk-xk-1)
    (với tùy thuộc vào ). Ý tưởng tương tự tồn tại cho các phương pháp điểm gần, xem, ví dụ, bài báo http://arxiv.org/pdf/1403.3522.pdf của Dirk Lorenz và Thomas Pock.γk,αkmột1,một2

(Tôi nên bổ sung thêm vào kiến ​​thức của mình, trong hầu hết các trường hợp này, việc giải thích như một hệ thống động lực không thực sự cần thiết cho đạo hàm hoặc bằng chứng hội tụ của thuật toán; người ta có thể lập luận rằng các ý tưởng như "ẩn so với rõ ràng" hoặc dẫn xuất Lie thực sự cơ bản hơn hệ thống động lực hoặc phương pháp giảm độ dốc. Tuy nhiên, sẽ không bao giờ đau lòng khi có một quan điểm khác để xem xét vấn đề từ đó.)


EDIT: Tôi vừa tình cờ thấy một ví dụ tuyệt vời từ bối cảnh thứ hai, trong đó cách giải thích ODE được sử dụng để suy ra các thuộc tính của phương pháp mở rộng của Nesterov và đề xuất các cải tiến: http://arxiv.org/pdf/1503.01243.pdf (Lưu ý rằng đây cũng là một ví dụ về quan điểm của Jed Brown, trong đó các tác giả về cơ bản đã khám phá lại điểm 4 ở trên mà không rõ ràng nhận thức được thuật toán của Polyak.)

EDIT 2: Và như một dấu hiệu cho thấy bạn có thể đi được bao xa, xem trang 5 của http://arxiv.org/pdf/1509.03616v1.pdf .


Tôi chấp nhận câu trả lời này vì đoạn thứ hai trực tiếp trả lời câu hỏi tôi đang cố hỏi, nhưng tôi cũng thích câu trả lời của Jed Brown.
Andrew T. Barker

13

Mặc dù tôi chưa thấy công thức chính xác mà bạn đã viết ở đây, tôi vẫn thấy các cuộc đàm phán trong đó mọi người "tái khám phá" một kết nối để tích hợp một số hệ thống nhất thời và tiến hành viết một thuật toán tương đương với một dạng hoặc một phương pháp khác có nguồn gốc dốc hoặc phương pháp giống như Newton và không trích dẫn bất kỳ ai khác. Tôi nghĩ rằng nó không hữu ích lắm vì về cơ bản, kết luận là "miễn là bạn thực hiện các bước đủ nhỏ, phương pháp cuối cùng sẽ hội tụ đến mức tối thiểu cục bộ". Chà, 2014 đánh dấu kỷ niệm 45 năm bài báo của Philip Wolfe cho thấy cách thực hiện điều này theo cách nguyên tắc. Ngoài ra còn có lý thuyết tốt để có được sự hội tụ q-quadratic hoặc q-superlinear từ tiếp tục giả ngẫu nhiên và các phương pháp liên quan như Levenberg-Marquest.

Nếu bạn muốn một ví dụ của khám phá lại này bằng cách sử dụng công thức giống như Newton để giải các phương trình đại số (nghĩa là tiếp tục giả cổ điển) từ một nhà toán học với hơn 600 bài báo (vì vậy có thể anh ta sẽ chứng minh những điều bạn thấy thú vị), hãy xem Phương pháp hệ thống động lực "của AG Ramm [1].

Nếu trực giác có được bằng cách xem xét một hệ thống nhất thời dẫn đến các thuật toán thực tế nhanh hơn hoặc đáng tin cậy hơn, tôi nghĩ rằng chúng ta sẽ thấy các bài viết được trích dẫn nhiều về chủ đề đó. Tôi nghĩ không có gì bí ẩn khi Nocedal và Wright có hơn 13000 trích dẫn trong khi cuốn sách của Ramm có khoảng 80 (chủ yếu là tự trích dẫn).

[1] Tôi có thể khuyên bạn không nên thông báo cho Giáo sư Ramm rằng DSM của anh ấy tương đương với đại số với một số thứ đã có trong vô số gói kỹ thuật trong nhiều thập kỷ hoặc bạn có thể bị hét ra khỏi phòng. #gradstudentmemories


3
Có thể thú vị hơn khi thấy bạn nói với anh ấy rằng bây giờ, Jed!
Bill Barth

0

Nếu các phương thức ODE có thể đóng góp vào tối ưu hóa, thì có một vấn đề ví dụ thực sự đơn giản nào để chỉ ra điều này không?
Một người đàn ông rơm: có một người giải ODE làm một công việc hợp lý trên
x˙= =-f(x)
x¨= =βx˙-αf(x)  
f

Trong thực tế, các bước "quá lớn" có vấn đề hơn nhiều so với "quá nhỏ" - dao động rất lộn xộn.
Tôi đã nghĩ ngây thơ rằng lý thuyết điều khiển có thể giúp đỡ. Công thức toán số p. 915 mô tả
điều khiển từng bước thích ứng PI cho ODE, nhưng tôi không biết liệu điều này có được sử dụng trong thực tế hay không.


Có vẻ như bạn đang đăng một câu hỏi mới dưới dạng câu trả lời ... Các câu hỏi liên quan có liên quan nên được đăng trong các câu hỏi hoặc nhận xét riêng biệt cho các câu trả lời được đưa ra.
Paul

@Paul, điều này có ý nghĩa gì không? Nếu vậy, bạn có thể vui lòng đề xuất một tiêu đề cho một câu hỏi mới?
chối

Tôi bối rối ... Tôi có thể sai, nhưng có vẻ như câu trả lời của bạn không thực sự là câu hỏi của OP. Chính xác thì thông điệp bạn đang cố gắng truyền tải là gì và nó liên quan đến câu hỏi ban đầu như thế nào?
Paul

@Paul, xin lỗi tôi không rõ. Câu hỏi mà tôi hiểu là nó yêu cầu một mối quan hệ giữa một vấn đề tối ưu hóa cụ thể và các bộ giải ODE bước thời gian. Christian Clason chỉ ra mối quan hệ trực tiếp giữa độ dốc gốc và bộ giải ODE cụ thể (chuyển tiếp Euler). Tôi nhận xét, chức năng kiểm tra đơn giản f () cho thấy bộ giải ODE di chuyển về phía tối thiểu f () là gì?
chối
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.