Tại sao SQP tốt hơn Lagrangian Augmented cho lập trình phi tuyến?

Trong báo cáo kỹ thuật về Galahad [1], các tác giả nêu rõ, trong bối cảnh các vấn đề lập trình phi tuyến nói chung,

Trong tâm trí của chúng tôi, chưa bao giờ thực sự có nhiều nghi ngờ rằng các phương pháp SQP [lập trình bậc hai tuần tự] sẽ thành công hơn [so với các phương pháp Lagrangian Augmented] trong dài hạn ...

Điều gì có thể là cơ sở cho niềm tin đó? Tức là, có bất kỳ kết quả lý thuyết nào cho thấy các phương pháp SQP nên nhanh hơn / đáng tin cậy hơn các phương pháp Lagrangian Augmented?

[1] Galahad, một thư viện các gói Fortran 90 an toàn cho luồng để tối ưu hóa phi tuyến quy mô lớn, bởi Gould, Orban và Toint

nonlinear-programming

— cjordan1
nguồn

Câu trả lời:

Các phương thức SQP yêu cầu mục tiêu có thể phân biệt hai lần (cf https://en.m.wikipedia.org/wiki/Sequential_quadratic_programming ) trong khi Lagrangian Augmented hoạt động ngay cả khi mục tiêu không thể phân biệt được (do đó sự hồi sinh gần đây của chúng trong cộng đồng xử lý hình ảnh cf ftp: //arachne.math.ucla.edu/pub/camreport/cam09-05.pdf )

Tôi không biết về phần mềm galahad, nhưng nếu được yêu cầu giải quyết các vấn đề tối ưu hóa khác biệt, nó có thể sẽ làm tốt hơn nhiều bằng cách sử dụng một phương pháp được phép phân biệt chức năng mục tiêu.

— dranxo
nguồn

Không đúng khi SQP yêu cầu hai lần các hàm mục tiêu khác nhau. Bạn có thể chỉ cần có một phương thức có tỷ lệ hội tụ nhỏ hơn nếu hàm mục tiêu có ít sự khác biệt hơn, nhưng điều đó hoàn toàn giống với các phương thức Lagrangian tăng cường.

— Wolfgang Bangerth

Về mặt lặp lại bên ngoài, SQP nên giành chiến thắng vì nó bao gồm thông tin phái sinh thứ hai, trong khi các phương pháp lagrangian tăng cường như ADMM thì không.

Tuy nhiên, một điều cần lưu ý là mỗi lần lặp cho các phương pháp này liên quan đến việc giải một hệ thống tuyến tính, vì vậy để so sánh công bằng, bạn phải tính đến việc các hệ thống này dễ giải quyết như thế nào.

Đối với Lagrange (xen kẽ) phương pháp tăng cường, mỗi lần lặp bạn đang giải quyết một cái gì đó như thế nào, nơi là một nhà điều hành chuyển tiếp thẳng từ hàm mục tiêu đó được biết đến và thường dễ dàng hơn để đối phó với hoặc điều kiện tiên quyết và là tham số hình phạt. (ví dụ: vấn đề của bạn là chịu một số ràng buộc và chính quy).

({Một}^{T} Một + ρ Tôi) x = = b,

$(A^TA + \rho I)x = b,$

A

$A$

ρ

$\rho$

min_{x} | | A x - b | |^{2}

$\min_x ||Ax-b||^2$

Đối với các phương thức SQP, bạn đang giải quyết một cái gì đó như trong đó là Hessian (hoặc gần đúng của chúng) thường chỉ có sẵn dưới dạng hành động của nó trên các vectơ và là độ dốc. Hessian không chỉ chứa , mà còn là sự kết hợp của các ma trận và nghịch đảo ma trận khác đến từ việc tuyến tính hóa các ràng buộc và chính quy hóa.

H x = = g,

$Hx = g,$

H

$H$

g

$g$

A

$A$

Điều kiện tiên quyết Hessians là một công việc khá khó khăn và ít được nghiên cứu hơn so với các vấn đề tiền đề. Một phương pháp tiêu chuẩn là ước tính nghịch đảo Hessian với L-BFGS, nhưng điều này có hiệu quả hạn chế khi nghịch đảo Hessian có thứ hạng cao. Một phương pháp phổ biến khác là ước tính Hessian là tổng của ma trận thứ hạng thấp cộng với ma trận dễ đảo ngược, nhưng điều này cũng có hiệu quả hạn chế đối với các vấn đề khó. Các kỹ thuật ước lượng Hessian phổ biến khác dựa trên các xấp xỉ thưa thớt, nhưng các vấn đề liên tục thường có Hessian có xấp xỉ thưa thớt kém.

— Nick Alger
nguồn

A

$A$

H

$H$

Vì vậy,

có thể được áp dụng bằng cách giải hai PDE, nhưng để áp dụng

bạn cần giải 2 PDE cho mỗi lần lặp kryolv trong bộ giải của bạn. Mặt khác

H

$H$

H^{- 1}

$H^{-1}$

A

$A$

A

$A$

A

$A$

A^{T} A + ρ I

$A^TA + \rho I$

H

$H$

A

$A$

A

$A$

A^{T}

$A^T$

sao cho

- là

min_{q, u} \frac{1}{2} | | C u - y | |^{2} + \frac{α}{2} | | R q | |^{2}

$\min_{q,u} \frac{1}{2}||Cu - y||^2 + \frac{\alpha}{2}||Rq||^2$

A u = q

$Au=q$

H = A^{- T} C^{T} C A^{- 1} + α R^{T} R

$H = A^{-T}C^TCA^{-1} + \alpha R^T R$

H

$H$

H^{- 1}

$H^{-1}$

Và tôi đã có ràng buộc

trong tâm trí (ví dụ:

S (q) = u

$S(q) = u$

S

$S$

q

$q$

u

$u$

- \nabla \cdot (q \nabla u) = f

$-\nabla\cdot(q\nabla u) = f$