bất biến tỷ lệ cho các thuật toán tìm kiếm dòng và vùng tin cậy

Trong cuốn sách của Nocedal & Wright về Tối ưu hóa số, có một tuyên bố trong phần 2.2 (trang 27), "Nói chung, việc bảo tồn quy mô bất biến cho thuật toán tìm kiếm dòng dễ dàng hơn so với thuật toán vùng tin cậy". Trong cùng một phần, họ nói về việc có các biến mới là các phiên bản được thu nhỏ của các biến ban đầu, có thể giúp với cả vùng tìm kiếm và vùng tin cậy. Một cách tiếp cận khác là tiền điều kiện. Đối với các phương pháp vùng tin cậy, điều kiện tiên quyết tương đương với việc có các vùng tin cậy hình elip và do đó, cung cấp bất biến tỷ lệ. Tuy nhiên, một trực giác tương tự không rõ ràng cho điều kiện tiên quyết cho tìm kiếm dòng. Những cách nào là tìm kiếm dòng phù hợp hơn cho quy mô bất biến? Có một số cân nhắc thực tế?

Ngoài ra, tôi có một câu hỏi liên quan đến tiền điều kiện cho các phương pháp khu vực tin cậy. Đối với một vấn đề có điều kiện cao, liệu một điều kiện tiên quyết tốt sẽ làm giảm cả số lần lặp Newton bên ngoài và lần lặp CG bên trong hay chỉ sau lần lặp sau? Vì, vùng tin cậy là ellipsoidal trong không gian ban đầu, một điều kiện tiên quyết tốt sẽ dẫn đến một ellipsoid sẽ phù hợp với cảnh quan tốt hơn. Tôi cảm thấy điều này có thể làm giảm số lần lặp Newton bên ngoài bằng cách buộc thuật toán thực hiện các hướng tốt hơn. Thê nay đung không?

linear-algebra optimization numerical-analysis

— haripkannan
nguồn

Tôi cho rằng có thể có một số khác biệt giữa cách các phương pháp tìm kiếm dòng và vùng tin cậy xử lý tỷ lệ, nhưng tôi thực sự không thấy nó có hiệu quả trong thực tế miễn là chúng tôi biết về tỷ lệ. Và, để rõ ràng, cuốn sách Nocedal và Wright đã nói về tỉ lệ affine. Chia tỷ lệ phi tuyến có phần phức tạp hơn để định lượng.

Để xem lý do tại sao, giả sử chúng tôi muốn giảm thiểu , nhưng chúng tôi muốn chia tỷ lệ các biến bằng một loại toán tử không điều chỉnh, tự điều chỉnh . Xác định là hàm mục tiêu tỷ lệ. Sau đó, $f:X\rightarrow \mathbb{R}$ $A\in\mathscr{L}(X)$ $J:X\rightarrow \mathbb{R}$ Sự khác biệt thực sự trong thuật toán là những gì xảy ra với tỉ lệ. Trong phương pháp của Newton, chúng tôi giải quyết hoặc Giả sử các Hessian là nonsingular, chúng tôi có

\begin{aligned} J (x) = & f (A x) \\ \nabla J (x) = & A \nabla f (A x) \\ \nabla^{2} J (x) = & A \nabla^{2} f (A x) A \end{aligned}

$\begin{align*} J(x) =& f(Ax)\\ \nabla J(x) =& A\nabla f(Ax)\\ \nabla^2 J(x) =& A\nabla^2 f(Ax) A \end{align*}$

A

$A$

\nabla^{2} J (x) δ x = - \nabla J (x)

$\nabla^2 J(x) \delta x = -\nabla J(x)$

A \nabla^{2} f (A x) A δ x = - A \nabla f (A x)

$A\nabla^2 f(Ax) A \delta x = -A\nabla f(Ax)$

Về cơ bản, mở rộng quy mô hủy bỏ ra ngoài và biến mất, vì vậy nó không ảnh hưởng đến hướng. Đó là lý do tại sao chúng ta nói phương pháp của Newton là bất biến quy mô affine.

A δ x = - \nabla^{2} f (A x)^{- 1} \nabla f (A x)

$A \delta x = -\nabla^2 f(Ax)^{-1} \nabla f(Ax)$

H δ x = - \nabla J (x)

$H \delta x = -\nabla J(x)$

H

$H$

H δ x = - A \nabla f (A x)

$H \delta x = -A \nabla f(Ax)$

A

$A$

H

$H$

$\phi$

δ x = ϕ (- A \nabla f (A x))

$\delta x = \phi(-A\nabla f(Ax))$

ϕ

$\phi$

ϕ

$\phi$

ϕ

$\phi$

A

$A$

\nabla^{2} J (x) δ x = - \nabla J (x)

$\nabla^2 J(x) \delta x = -\nabla J(x)$ không chính xác bằng cách sử dụng CG. Điều này chính xác là sử dụng Steihaug-Toint trong cài đặt vùng tin cậy (trang 171 trong Nocedal và Wright) hoặc Newton-CG để tìm kiếm dòng (trang 169 trong Nocedal và Wright). Chúng hoạt động khá gần giống nhau và chúng không quan tâm đến tỷ lệ affine. Họ cũng không yêu cầu lưu trữ Hessian, chỉ yêu cầu các sản phẩm vector Hessian. Thực sự, các thuật toán này sẽ là con ngựa cho hầu hết các vấn đề và họ không quan tâm đến việc chia tỷ lệ affine.

Theo như điều kiện tiên quyết cho vấn đề khu vực tin cậy, tôi không nghĩ có cách nào dễ dàng để nói với apriori nếu bạn sẽ cải thiện số lần lặp tối ưu hóa tổng thể hay không. Thực sự, vào cuối ngày, các phương pháp tối ưu hóa hoạt động ở hai chế độ. Trong chế độ một, chúng ta ở quá xa bán kính hội tụ phương pháp của Newton, vì vậy chúng ta toàn cầu hóa và chỉ buộc các vòng lặp đảm bảo rằng mục tiêu đi xuống. Khu vực tin cậy là một cách. Tìm kiếm dòng là khác. Ở chế độ hai, chúng ta đang ở trong bán kính hội tụ phương thức của Newton, vì vậy chúng tôi cố gắng không gây rối với nó và để phương thức của Newton thực hiện công việc đó. Trong thực tế, chúng ta có thể thấy điều này trong các bằng chứng hội tụ của những thứ như phương pháp vùng tin cậy. Ví dụ, hãy xem Định lý 4.9 (tr.93 trong Nocedal và Wright). Rất rõ ràng, họ tuyên bố làm thế nào khu vực tin cậy trở nên không hoạt động. Trong bối cảnh này, tiện ích của điều kiện tiên quyết là gì? Chắc chắn, khi chúng ta ở trong bán kính hội tụ phương pháp của Newton, chúng ta làm việc ít hơn rất nhiều và số lần lặp CG giảm xuống. Điều gì xảy ra khi chúng ta ở ngoài bán kính này? Nó loại phụ thuộc. Nếu chúng ta tính toán bước Newton đầy đủ, thì lợi ích là chúng ta đã làm ít hơn. Nếu chúng tôi cắt bước sớm do bị cắt bớt từ CG bị cắt cụt, thì hướng của chúng tôi sẽ ở trong không gian con Krylov

{- P \nabla J (x), - (P H) (P \nabla J (x)), \dots, - (P H)^{k} (P \nabla J (x))}

$\{-P\nabla J(x),-(PH)(P\nabla J(x)),\dots,-(PH)^k(P\nabla J(x))\}$

P

$P$

H

$H$

{- \nabla J (x), - (H) (\nabla J (x)), \dots, - (H)^{k} (\nabla J (x))} ?

$\{-\nabla J(x),-(H)(\nabla J(x)),\dots,-(H)^k(\nabla J(x))\}?$

Điều này không có nghĩa là không có giá trị trong việc xác định một điều kiện tiên quyết tốt. Tuy nhiên, tôi không chắc chắn làm thế nào ai đó định nghĩa một điều kiện tiên quyết để hỗ trợ tối ưu hóa cho các điểm cách xa bán kính hội tụ phương pháp của Newton. Thông thường, chúng tôi thiết kế một điều kiện tiên quyết để phân cụm các giá trị riêng của xấp xỉ Hessian, đó là một mục tiêu hữu hình, có thể đo lường được.

tldr; Thực tế mà nói, có nhiều cách khác nhau để phương pháp tìm kiếm dòng tạo ra một vòng lặp so với phương pháp vùng tin cậy, vì vậy có thể có một cách tuyệt vời để xử lý tỷ lệ affine. Tuy nhiên, chỉ cần sử dụng một phương pháp Newton không chính xác và nó không thành vấn đề. Một điều kiện tiên quyết không ảnh hưởng đến hiệu suất của thuật toán cách xa bán kính hội tụ phương pháp của Newton, nhưng thật khó để định lượng bằng cách nào, vì vậy chỉ cần thiết kế một điều kiện tiên quyết để phân cụm các giá trị riêng của xấp xỉ Hessiasn.

— wyer33
nguồn