Tôi cho rằng có thể có một số khác biệt giữa cách các phương pháp tìm kiếm dòng và vùng tin cậy xử lý tỷ lệ, nhưng tôi thực sự không thấy nó có hiệu quả trong thực tế miễn là chúng tôi biết về tỷ lệ. Và, để rõ ràng, cuốn sách Nocedal và Wright đã nói về tỉ lệ affine. Chia tỷ lệ phi tuyến có phần phức tạp hơn để định lượng.
Để xem lý do tại sao, giả sử chúng tôi muốn giảm thiểu , nhưng chúng tôi muốn chia tỷ lệ các biến bằng một loại toán tử không điều chỉnh, tự điều chỉnh A ∈ L ( X ) . Xác định J : X → R là hàm mục tiêu tỷ lệ. Sau đó,
J ( x ) = f ( A x ) ∇ J ( x ) = Một ∇ f ( A x ) ∇ 2 J ( x )f:X→RA∈L(X)J:X→R
Sự khác biệt thực sự trong thuật toán là những gì xảy ra với tỉ lệMột. Trong phương pháp của Newton, chúng tôi giải quyết
∇2J(x)δx=-∇J(x)
hoặc
A∇2f(Ax)Mộtδx=-Một∇f(Ax)
Giả sử các Hessian là nonsingular, chúng tôi có
Một
J(x)=∇J(x)=∇2J(x)=f(Ax)A∇f(Ax)A∇2f(Ax)A
A∇2J(x)δx=−∇J(x)
A∇2f(Ax)Aδx=−A∇f(Ax)
Về cơ bản, mở rộng quy mô hủy bỏ ra ngoài và biến mất, vì vậy nó không ảnh hưởng đến hướng. Đó là lý do tại sao chúng ta nói phương pháp của Newton là bất biến quy mô affine.
Aδx=−∇2f(Ax)−1∇f(Ax)
Hδx=−∇J(x)
HHδx=−A∇f(Ax)
AH
ϕ
δx=ϕ(−A∇f(Ax))
ϕϕϕA
∇2J(x)δx=−∇J(x)
không chính xác bằng cách sử dụng CG. Điều này chính xác là sử dụng Steihaug-Toint trong cài đặt vùng tin cậy (trang 171 trong Nocedal và Wright) hoặc Newton-CG để tìm kiếm dòng (trang 169 trong Nocedal và Wright). Chúng hoạt động khá gần giống nhau và chúng không quan tâm đến tỷ lệ affine. Họ cũng không yêu cầu lưu trữ Hessian, chỉ yêu cầu các sản phẩm vector Hessian. Thực sự, các thuật toán này sẽ là con ngựa cho hầu hết các vấn đề và họ không quan tâm đến việc chia tỷ lệ affine.
Theo như điều kiện tiên quyết cho vấn đề khu vực tin cậy, tôi không nghĩ có cách nào dễ dàng để nói với apriori nếu bạn sẽ cải thiện số lần lặp tối ưu hóa tổng thể hay không. Thực sự, vào cuối ngày, các phương pháp tối ưu hóa hoạt động ở hai chế độ. Trong chế độ một, chúng ta ở quá xa bán kính hội tụ phương pháp của Newton, vì vậy chúng ta toàn cầu hóa và chỉ buộc các vòng lặp đảm bảo rằng mục tiêu đi xuống. Khu vực tin cậy là một cách. Tìm kiếm dòng là khác. Ở chế độ hai, chúng ta đang ở trong bán kính hội tụ phương thức của Newton, vì vậy chúng tôi cố gắng không gây rối với nó và để phương thức của Newton thực hiện công việc đó. Trong thực tế, chúng ta có thể thấy điều này trong các bằng chứng hội tụ của những thứ như phương pháp vùng tin cậy. Ví dụ, hãy xem Định lý 4.9 (tr.93 trong Nocedal và Wright). Rất rõ ràng, họ tuyên bố làm thế nào khu vực tin cậy trở nên không hoạt động. Trong bối cảnh này, tiện ích của điều kiện tiên quyết là gì? Chắc chắn, khi chúng ta ở trong bán kính hội tụ phương pháp của Newton, chúng ta làm việc ít hơn rất nhiều và số lần lặp CG giảm xuống. Điều gì xảy ra khi chúng ta ở ngoài bán kính này? Nó loại phụ thuộc. Nếu chúng ta tính toán bước Newton đầy đủ, thì lợi ích là chúng ta đã làm ít hơn. Nếu chúng tôi cắt bước sớm do bị cắt bớt từ CG bị cắt cụt, thì hướng của chúng tôi sẽ ở trong không gian con Krylov
{−P∇J(x),−(PH)(P∇J(x)),…,−(PH)k(P∇J(x))}
PH{−∇J(x),−(H)(∇J(x)),…,−(H)k(∇J(x))}?
Điều này không có nghĩa là không có giá trị trong việc xác định một điều kiện tiên quyết tốt. Tuy nhiên, tôi không chắc chắn làm thế nào ai đó định nghĩa một điều kiện tiên quyết để hỗ trợ tối ưu hóa cho các điểm cách xa bán kính hội tụ phương pháp của Newton. Thông thường, chúng tôi thiết kế một điều kiện tiên quyết để phân cụm các giá trị riêng của xấp xỉ Hessian, đó là một mục tiêu hữu hình, có thể đo lường được.
tldr; Thực tế mà nói, có nhiều cách khác nhau để phương pháp tìm kiếm dòng tạo ra một vòng lặp so với phương pháp vùng tin cậy, vì vậy có thể có một cách tuyệt vời để xử lý tỷ lệ affine. Tuy nhiên, chỉ cần sử dụng một phương pháp Newton không chính xác và nó không thành vấn đề. Một điều kiện tiên quyết không ảnh hưởng đến hiệu suất của thuật toán cách xa bán kính hội tụ phương pháp của Newton, nhưng thật khó để định lượng bằng cách nào, vì vậy chỉ cần thiết kế một điều kiện tiên quyết để phân cụm các giá trị riêng của xấp xỉ Hessiasn.