Tại sao các vấn đề lồi dễ tối ưu hóa?


8

Thúc đẩy bởi câu trả lời hàng đầu này cho câu hỏi: Tại sao độ lồi quan trọng hơn độ lồi trong tối ưu hóa? , Bây giờ tôi đang hy vọng hiểu tại sao các vấn đề lồi dễ tối ưu hóa (hoặc ít nhất là dễ dàng hơn các vấn đề quasiconvex ).

Một số thuật toán hiệu quả nhất để tối ưu hóa lồi là gì và tại sao chúng không thể được sử dụng hiệu quả trong các vấn đề quasiconvex ?


1
Một đặc tính cực kỳ hay là nếu bạn vẽ một đường thẳng / mặt phẳng / siêu phẳng tiếp tuyến với đồ thị của hàm lồi, toàn bộ đồ thị sẽ nằm ở một bên của đường thẳng, không hoạt động cho các hàm quasiconvex.
Kirill

Câu trả lời:


5

Hầu hết các phương pháp hiện đại tốt nhất để tối ưu hóa quy mô lớn bao gồm thực hiện xấp xỉ bậc hai cục bộ cho hàm mục tiêu, di chuyển tới điểm tới hạn của phép tính gần đúng đó, sau đó lặp lại. Điều này bao gồm phương pháp của Newton, L-BFGS, v.v.

Một hàm chỉ có thể được xấp xỉ tốt cục bộ bởi một bậc hai với mức tối thiểu nếu Hessian tại điểm hiện tại là xác định dương. Nếu Hessian là vô thời hạn, thì một trong hai

  1. Xấp xỉ bậc hai cục bộ là một xấp xỉ cục bộ tốt cho hàm mục tiêu và do đó là một bề mặt yên. Sau đó, sử dụng phép tính gần đúng bậc hai này sẽ gợi ý di chuyển về phía điểm yên, có khả năng sai hướng, hoặc

  2. Phép tính gần đúng bậc hai cục bộ buộc phải có tối thiểu bằng cách xây dựng, trong trường hợp đó có khả năng là xấp xỉ kém với hàm mục tiêu ban đầu.

(Loại vấn đề tương tự phát sinh nếu Hessian âm tính xác định, trong trường hợp đó, nó trông giống như một cái bát lộn ngược)

Vì vậy, các phương pháp này sẽ hoạt động tốt nhất nếu Hessian xác định dương ở mọi nơi, tương đương với độ lồi cho các hàm trơn tru.


Tất nhiên, tất cả các phương pháp hiện đại tốt đều có biện pháp bảo vệ để đảm bảo sự hội tụ khi di chuyển qua các khu vực nơi Hessian không xác định - Ví dụ: tìm kiếm dòng, vùng tin cậy, dừng giải quyết tuyến tính khi gặp phải hướng cong tiêu cực, v.v. các vùng không xác định như vậy, sự hội tụ thường chậm hơn nhiều, vì thông tin độ cong đầy đủ về hàm mục tiêu không thể được sử dụng.


1
Không đồng ý. Các khu vực tin cậy có thể xử lý các ô tiêu chuẩn không xác định. Ngay cả các phương pháp tìm kiếm dòng có thể bằng cách tìm và thực hiện tìm kiếm dòng trên các hướng của độ cong âm. Mặt khác, nếu thuật toán của bạn ở dạng trần trụi, không có vùng tin cậy hoặc tìm kiếm dòng phù hợp để bảo vệ bạn, thì bạn sẽ gặp rắc rối. Nhưng bạn cũng có thể gặp rắc rối với sự liều lĩnh như vậy ngay cả với chức năng lồi hoàn toàn.
Mark L. Stone

3
@ MarkL.Stone Tất nhiên điều này là đúng và tôi đã tranh luận khi đề cập đến nó khi viết bài đăng. Tuy nhiên, vấn đề là, vâng, bạn có thể làm cho phương thức hội tụ bằng cách xử lý đặc biệt (như tất cả các mã hiện đại tốt làm), nhưng sự hội tụ chậm hơn đáng kể. Ví dụ: phương pháp vùng tin cậy tương đương với độ dốc gốc nếu vùng tin cậy nhỏ.
Nick Alger

7

Bạn có thể thử áp dụng thuật toán tối ưu hóa lồi cho vấn đề tối ưu hóa không lồi và thậm chí nó có thể hội tụ đến mức tối thiểu cục bộ, nhưng chỉ có thông tin cục bộ về hàm, bạn sẽ không bao giờ có thể kết luận rằng thực tế bạn đã có thể tìm thấy mức tối thiểu toàn cầu. Thuộc tính lý thuyết quan trọng nhất của các vấn đề tối ưu hóa lồi là bất kỳ mức tối thiểu cục bộ nào (trên thực tế, bất kỳ điểm dừng nào) cũng là mức tối thiểu toàn cầu.

Các thuật toán để tối ưu hóa toàn cầu các vấn đề không lồi phải có một số loại thông tin toàn cầu (ví dụ: tính liên tục của hàm) để chứng minh rằng giải pháp là tối thiểu toàn cầu.

Để trả lời câu hỏi cụ thể của bạn về lý do tại sao thuật toán tối ưu hóa lồi có thể thất bại trong bài toán gần như lồi, giả sử rằng thuật toán tối ưu hóa lồi của bạn xảy ra bắt đầu tại một "điểm phẳng" trên biểu đồ của hàm mục tiêu. Không có thông tin địa phương trong gradient để cho bạn biết nơi tiếp theo. Đối với một vấn đề lồi, bạn chỉ có thể dừng lại, biết rằng bạn đã ở điểm tối thiểu cục bộ (và do đó là toàn cầu).


Tôi không nghĩ rằng điều này trả lời câu hỏi về lồi và quasiconvexity. Nếu vấn đề chỉ là tránh độ dốc phẳng, người ta có thể cho rằng các phương pháp lồi hiệu quả hoạt động tốt như nhau đối với các hàm quasiconvex , mà tôi không nghĩ là trường hợp này.
Amelio Vazquez-Reina

y= =x3x= =0x= =0

1
Có một định lý chuẩn nói rằng nếu một phương pháp gốc được sử dụng với tìm kiếm dòng thỏa mãn các điều kiện Armijo thì bạn sẽ hội tụ toàn cầu đến mức tối thiểu cục bộ. (Tôi đã bỏ qua một vài giả thuyết kỹ thuật ở đây.) Vì vậy, bạn có thể hội tụ toàn cầu đến mức tối thiểu cho lớp chức năng bán cầu lồi của bạn mà không có điểm quan trọng không tối ưu. Xem ví dụ Định lý 3.2 trong ấn bản thứ hai của văn bản của Nocedal và Wright.
Brian Borchers

1
Đối với "dễ tối ưu hóa", bạn cần vượt ra ngoài vấn đề hội tụ toàn cầu để giảm thiểu và xem xét tỷ lệ hội tụ. Việc phân tích nhiều phương pháp để tối ưu hóa lồi (ví dụ: hội tụ bậc hai của phương pháp Newton hoặc sự hội tụ nhanh của một số phương thức bậc nhất được tăng tốc gần đây để tối ưu hóa lồi) phụ thuộc vào độ lồi để các phương thức này có thể thất bại trong lớp hàm quasiconvex của bạn. Ví dụ, một hàm quasiconvex có thể có một điểm tới hạn duy nhất nhưng có những điểm mà Hessian là số ít và điều này có thể phá vỡ phương pháp của Newton.
Brian Borchers

2
Ngoài ra, hãy nhớ rằng mọi người thường nói về các vấn đề tối ưu hóa lồi là "dễ giải quyết", họ thường nói về một số loại vấn đề tối ưu hóa lồi (LP, Convex QP, SOCP, SDP, v.v.) thuật toán thời gian tồn tại và điều đó có thể được giải quyết dễ dàng trong thực tế. Các vấn đề tối ưu lồi tổng quát hơn có thể khó giải quyết hơn nhiều trong thực tế.
Brian Borchers
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.