Gradient giảm dần trên các hàm không lồi


9

Những tình huống nào chúng ta biết về nơi độ dốc có thể được hiển thị để hội tụ (đến điểm tới hạn hoặc cực tiểu cục bộ / toàn cầu) cho các hàm không lồi?


Đối với SGD về các chức năng không lồi, một loại bằng chứng đã được xem xét tại đây, http://www.cs.cornell.edu/cifts/cs6787/2017fa/Lecture7.pdf


2
Bài viết này: arxiv.org/pdf/1602.04915.pdf có thể được sử dụng. Cụ thể: "nếu [chức năng] có khả năng phân biệt hai lần liên tục và thỏa mãn tính chất yên xe nghiêm ngặt, thì độ dốc giảm dần với khởi tạo ngẫu nhiên và kích thước bước không đổi đủ nhỏ hội tụ đến bộ giảm thiểu cục bộ hoặc vô cực âm gần như chắc chắn"
David Kozak

Cảm ơn! Tôi tự hỏi liệu có một ý nghĩa trong đó bài báo mà bạn trích dẫn yếu hơn kết quả gần đây hơn này, arxiv.org/abs/1709.01434 Có ý tưởng nào không?
tốt nghiệp

Thuận tiện rằng giấy đã có trong danh sách của tôi để giải quyết trong tuần này, tôi sẽ liên lạc lại với bạn bằng một câu trả lời thích hợp khi tôi đã tiêu hóa được.
David Kozak

Cảm ơn! Mong một cuộc thảo luận! : D Hãy cho tôi biết nếu bạn biết bất kỳ nguyên mẫu "nhỏ" nào của các bằng chứng như vậy về việc thể hiện sự hội tụ ở độ dốc không lồi!
tốt nghiệp

Câu trả lời:


3

Xem phụ lục B1 trong https://web.stanford.edu/~boyd/cvxbook/ .

Hàm và ràng buộc có thể không lồi trong Chương trình bậc hai ràng buộc bậc hai, và bạn vẫn có thể thấy tính đối ngẫu mạnh mẽ (nó được đảm bảo nếu một điều kiện kỹ thuật được gọi là vòng loại ràng buộc của Slater)

Nhị nguyên mạnh về các điều khoản yếu có nghĩa là chúng ta có thể giải quyết vấn đề tối ưu hóa. Từ vấn đề ban đầu được gọi là nguyên tắc, bạn có thể hình thành một vấn đề thay thế gọi là vấn đề kép. Giải pháp của vấn đề kép cung cấp một giải pháp mà theo một nghĩa nào đó là "giới hạn dưới tốt nhất" cho các vấn đề ban đầu của bạn

Trong rất nhiều vấn đề tối ưu hóa không phải là lồi, sẽ có một khoảng cách giữa các giải pháp nguyên thủy và kép, nghĩa là giới hạn dưới có thể thấp hơn nhiều so với giá trị tối ưu thực sự (thậm chí là vô cực âm). Trong một số trường hợp đặc biệt, ràng buộc là chặt chẽ. Những trường hợp đặc biệt là những trường hợp chúng ta có tính đối ngẫu mạnh mẽ.

Thuật toán là một KỸ THUẬT được sử dụng để đi đến điểm tối ưu. Giải pháp tối ưu và khả năng tìm ra nó phụ thuộc vào GEOMETRY của vấn đề (đó là điều mà tính hai mặt cố gắng đạt được). Nói một cách lỏng lẻo, phân tích nói rằng nếu tối ưu hóa được thiết lập đúng sẽ hội tụ đến mức tối thiểu.

Nói chung, độ dốc giảm dần sẽ hội tụ đến một điểm dừng. Điểm này có thể là tối thiểu địa phương / tối thiểu toàn cầu / tối thiểu yên. Chỉ trong vài trường hợp không lồi, chúng tôi có thể đảm bảo những gì nó hội tụ


QCQP là gì và ý nghĩa của việc nhìn thấy tính đối ngẫu mạnh mẽ là gì?
MachineEpsilon

@Sid Điều này có liên quan gì đến sự hội tụ của độ dốc gốc mà tôi đang hỏi về?
tốt nghiệp

Tôi đã chỉnh sửa câu trả lời của tôi. Tôi xin lỗi vì sự phản hồi ngắn gọn
Sid

3

Trong câu trả lời này, tôi sẽ khám phá hai bài báo thú vị và có liên quan được đưa ra trong các ý kiến. Trước khi làm như vậy, tôi sẽ cố gắng chính thức hóa vấn đề và làm sáng tỏ một số giả định và định nghĩa. Tôi bắt đầu với một bài báo năm 2016 của Lee et al.

Chúng tôi tìm cách giảm thiểu hàm không lồi được giới hạn dưới đây. Chúng tôi yêu cầu nó phải khác biệt hai lần. Chúng tôi sử dụng thuật toán giảm độ dốc của mẫu:f:RdR

.xxt+1=xxtαf(xxt)

Ngoài ra, chúng tôi có các yêu cầu sau:

.f(xx1)f(xx2)xx1xx2,for all xx1,xx2

Đó là, chúng tôi yêu cầu chức năng của chúng tôi phải là -Lipschitz trong đạo hàm đầu tiên của nó. Trong tiếng Anh, điều này có nghĩa là độ dốc của chúng tôi không thể thay đổi quá nhanh ở bất cứ đâu trong miền. Giả định này đảm bảo rằng chúng ta có thể chọn kích thước bước sao cho không bao giờ kết thúc với các bước phân kỳ.

Nhớ lại rằng một điểm được cho là yên xe nghiêm ngặt nếu f ( xxxf(xx)=0 λ max ( 2 f ( xλmin(2f(xx))<0λmax(2f(xx))>0

Bài viết cho thấy rằng với các giả định ở trên, cùng với giả định rằng tất cả các điểm yên của chức năng là yên xe nghiêm ngặt, độ dốc giảm dần được đảm bảo hội tụ ở mức tối thiểu.

Bằng chứng khá kỹ thuật, nhưng trực giác là thế này: xác định một tập hợp , trong đó là điểm yên ngựa. Tôi không thích ký hiệu này chút nào. Những gì họ đang cố gắng nhận được là là tập hợp các giá trị bắt đầu mà bản đồ độ dốc gửi đến . Nói một cách đơn giản hơn, đó là tập hợp các khởi tạo ngẫu nhiên cuối cùng sẽ hội tụ vào yên xe.Ws(xxs)={xx:limkgk(xx)=xxs} Wg: R d R d xxxsWg:RdRdxxxkxxs

Lập luận của họ dựa trên Định lý Manifold ổn định. Với các giả định ở trên và một loạt các phép toán bí truyền, họ kết luận rằng tập phải được đo bằng 0, nghĩa là, không có xác suất nào để khởi tạo ngẫu nhiên vào một điểm sẽ hội tụ đến điểm yên ngựa. Như chúng ta biết rằng độ dốc giảm dần trên các chức năng của loại được nêu trong các giả định với kích thước bước nhỏ phù hợp cuối cùng sẽ đạt đến điểm tới hạn và bây giờ chúng ta biết (gần như chắc chắn) rằng nó sẽ không bao giờ hạ cánh trên yên xe, chúng ta biết rằng nó sẽ hội tụ một bộ giảm thiểu.Ws

Bài báo thứ hai, gần đây hơn của Reddi et al. Tôi sẽ thảo luận chi tiết hơn. Có một số khác biệt. Đầu tiên, họ không còn làm việc trong một khung xác định, thay vào đó chọn sử dụng khung xấp xỉ ngẫu nhiên ngẫu nhiên có liên quan thực tế hơn trên một tổng hữu hạn (nghĩ Stochastic Gradient Descent). Sự khác biệt chính là kích thước bước yêu cầu một số chăm sóc bổ sung và độ dốc trở thành một biến ngẫu nhiên. Ngoài ra, họ nới lỏng giả định rằng tất cả các yên ngựa đều nghiêm ngặt và tìm kiếm một điểm dừng thứ hai. Đó là, một điểm sao cho, (f)ϵ,and,λmin(2f(xx))ρϵ

Trong đó là hằng số Lipschitz cho Hessian. (Đó là, ngoài yêu cầu rằng độ dốc của chúng tôi không thay đổi quá nhanh, giờ đây chúng tôi có một yêu cầu tương tự đối với Hessian của chúng tôi. Về cơ bản, các tác giả đang tìm kiếm một điểm giống như cực tiểu trong cả đạo hàm thứ nhất và thứ hai.rho

Phương pháp mà họ thực hiện điều này là sử dụng một biến thể (chọn yêu thích của bạn) về độ dốc gốc ngẫu nhiên trong hầu hết thời gian. Nhưng bất cứ nơi nào họ gặp phải một điểm mà , họ sử dụng phương pháp đặt hàng thứ hai được chọn phù hợp để thoát khỏi yên xe. Họ cho thấy rằng bằng cách kết hợp thông tin thứ hai này khi cần, họ sẽ hội tụ đến một điểm dừng thứ hai.λmin(2f(xx))0

Về mặt kỹ thuật, đây là một phương pháp gradient bậc hai, có thể có hoặc không thuộc các thuật toán mà bạn quan tâm.

Đây là một lĩnh vực nghiên cứu rất tích cực và tôi đã bỏ qua nhiều đóng góp quan trọng (ví dụ như Ge và cộng sự ). Tôi cũng mới tham gia chủ đề này nên câu hỏi này đã cho tôi cơ hội xem xét. Tôi rất vui khi tiếp tục thảo luận nếu có hứng thú.

*** Được lựa chọn phù hợp có nghĩa là một trong số đó được hiển thị để hội tụ đến một điểm dừng thứ hai. Họ sử dụng phương pháp Newton chính quy hóa của Nesterov và Polyak.


1
Cảm ơn vi đa trả lơi! Hai ý kiến ​​(a) Tôi nghĩ Reddi et. al. là một kết quả tốt hơn so với Lee et. al. bởi vì nó là một sự hội tụ với một tỷ lệ ràng buộc và không chỉ là một kết quả tiệm cận. (b) Có giấy này mà dường như tuyên bố (và vẻ thích như vậy) là tốt hơn so với tất cả những giấy tờ, opt-ml.org/papers/OPT2017_paper_16.pdf
gradstudent

Đồng ý, và nó đơn giản hơn nhiều về mặt toán học. Nhưng kết quả Lee rất thú vị cho cách tiếp cận độc đáo của nó - tôi nghĩ sẽ có nhiều tiến bộ hơn từ hướng đó khi chúng ta bắt đầu tìm kiếm nhiều cách hơn để hiểu các bề mặt không đối xứng chiều cao. Tôi sẽ kiểm tra giấy bạn tham khảo, cảm ơn vì điều đó!
David Kozak

Hãy thêm một câu hỏi nữa: Đưa ra Reddi et. al. giấy vẫn còn bất kỳ sự liên quan nào của bài báo nổi tiếng hơn của cùng nhóm, arxiv.org/abs/1603.06160
tốt nghiệp

Chắc chắn có sự liên quan vì biến thể giảm độ dốc mà họ sử dụng trong bài báo gần đây của họ là SVRG. Chúng tôi có thể đóng câu hỏi này và bắt đầu lại từ đầu để cộng đồng nhận được lợi ích khi tham gia. Tôi vẫn chưa đọc bài báo mà bạn đề xuất ngoài bản tóm tắt nhưng nó nằm trong danh sách và có thể truyền cảm hứng cho những câu hỏi tiếp theo.
David Kozak

2

Tôi sẽ thử và trả lời phần "khi nào Gradient Descent hội tụ đến một điểm quan trọng" của câu hỏi.

Bài viết "Sự hội tụ của các phương pháp gốc cho các vấn đề bán đại số và thuần hóa: các thuật toán gần, phân tách lùi về phía trước và các phương pháp Gauss-Seidel chính quy"

bởi Attouch, Bolte và Svaiter,

cho thấy rằng nếu hàm mục tiêu thỏa mãn bất đẳng thức Kurdyka-Lojasiewicz (KL), thì GD và các phương pháp gốc khác thực tế hội tụ đến một bộ giảm thiểu. Lưu ý rằng điều kiện KL là vô cùng chung chung nhưng khó nắm bắt. Các hàm thỏa mãn KL chẳng hạn được đưa ra bởi các hàm bán đại số (một lần nữa, rất chung chung nhưng không phải là một khái niệm đơn giản).

Để đưa ra một số trực giác về những khái niệm này, tôi sẽ cố gắng ít mơ hồ hơn nhưng cũng không quá kỹ tính, quá trần trụi với tôi. Hàm thỏa mãn điều kiện KL tại điểm tới hạn nếu tồn tại hàm (lưu ý rằng tôi bỏ qua một số điều kiện) sao cho cho tất cả sao cho với một số . Trực giác là tồn tại một chức năng mà lặp lại chức năng quan tâm của chúng tôifx¯ϕ

||(ϕf)(x)||1
xf(x¯)<f(x)<rrϕftheo cách mà nó sắc nét xung quanh điểm tới hạn (đạo hàm được giới hạn từ 0). Theo một nghĩa nào đó, điều này có nghĩa là, hàm không thể quá phẳng xung quanh .x¯

Mặt khác, bán nguyệt khó hơn một chút. Lĩnh vực nghiên cứu nó còn được gọi là hình học thuần hóa . Tôi nghĩ rằng tên thuần hóa nắm bắt bản chất rất tốt. Các chức năng thuộc về lớp này không thể tùy ý "hoang dã".


Cảm ơn! Hãy để tôi tìm cái này! Bạn có thể vui lòng thêm một số trực giác về tình trạng này?
tốt nghiệp

Tôi cập nhật câu trả lời của tôi với một số trực giác. Hy vọng nó giúp.
xel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.