Trong câu trả lời này, tôi sẽ khám phá hai bài báo thú vị và có liên quan được đưa ra trong các ý kiến. Trước khi làm như vậy, tôi sẽ cố gắng chính thức hóa vấn đề và làm sáng tỏ một số giả định và định nghĩa. Tôi bắt đầu với một bài báo năm 2016 của Lee et al.
Chúng tôi tìm cách giảm thiểu hàm không lồi được giới hạn dưới đây. Chúng tôi yêu cầu nó phải khác biệt hai lần. Chúng tôi sử dụng thuật toán giảm độ dốc của mẫu:f:Rd→R
.xxt+1=xxt−α∇f(xxt)
Ngoài ra, chúng tôi có các yêu cầu sau:
.∥ ∇ f( xx1) - ∇ f( xx2) ∥ ≤ ℓ ∥ xx1- xx2∥ ,cho tất cả xx1, xx2
Đó là, chúng tôi yêu cầu chức năng của chúng tôi phải là -Lipschitz trong đạo hàm đầu tiên của nó. Trong tiếng Anh, điều này có nghĩa là độ dốc của chúng tôi không thể thay đổi quá nhanh ở bất cứ đâu trong miền. Giả định này đảm bảo rằng chúng ta có thể chọn kích thước bước sao cho không bao giờ kết thúc với các bước phân kỳ.ℓ
Nhớ lại rằng một điểm được cho là yên xe nghiêm ngặt nếu ∇ f ( xxx∇ f( xx )=0 λ max ( ∇ 2 f ( xλtối thiểu( ∇2f( xx ) ) <0λtối đa( ∇2f( xx ) ) >0
Bài viết cho thấy rằng với các giả định ở trên, cùng với giả định rằng tất cả các điểm yên của chức năng là yên xe nghiêm ngặt, độ dốc giảm dần được đảm bảo hội tụ ở mức tối thiểu.
Bằng chứng khá kỹ thuật, nhưng trực giác là thế này: xác định một tập hợp , trong đó là điểm yên ngựa. Tôi không thích ký hiệu này chút nào. Những gì họ đang cố gắng nhận được là là tập hợp các giá trị bắt đầu mà bản đồ độ dốc gửi đến . Nói một cách đơn giản hơn, đó là tập hợp các khởi tạo ngẫu nhiên cuối cùng sẽ hội tụ vào yên xe.WS( xxS) = { xx : limkgk( xx ) = xxS} Wg: R d → R d xxxSWg: Rd→ RdxxxkxxS
Lập luận của họ dựa trên Định lý Manifold ổn định. Với các giả định ở trên và một loạt các phép toán bí truyền, họ kết luận rằng tập phải được đo bằng 0, nghĩa là, không có xác suất nào để khởi tạo ngẫu nhiên vào một điểm sẽ hội tụ đến điểm yên ngựa. Như chúng ta biết rằng độ dốc giảm dần trên các chức năng của loại được nêu trong các giả định với kích thước bước nhỏ phù hợp cuối cùng sẽ đạt đến điểm tới hạn và bây giờ chúng ta biết (gần như chắc chắn) rằng nó sẽ không bao giờ hạ cánh trên yên xe, chúng ta biết rằng nó sẽ hội tụ một bộ giảm thiểu.WS
Bài báo thứ hai, gần đây hơn của Reddi et al. Tôi sẽ thảo luận chi tiết hơn. Có một số khác biệt. Đầu tiên, họ không còn làm việc trong một khung xác định, thay vào đó chọn sử dụng khung xấp xỉ ngẫu nhiên ngẫu nhiên có liên quan thực tế hơn trên một tổng hữu hạn (nghĩ Stochastic Gradient Descent). Sự khác biệt chính là kích thước bước yêu cầu một số chăm sóc bổ sung và độ dốc trở thành một biến ngẫu nhiên. Ngoài ra, họ nới lỏng giả định rằng tất cả các yên ngựa đều nghiêm ngặt và tìm kiếm một điểm dừng thứ hai. Đó là, một điểm sao cho,
∥ ∇ ( f) ∥ ≤ ε ,và ,λtối thiểu( ∇2f( xx ) ) ≥- ρ ε--√
Trong đó là hằng số Lipschitz cho Hessian. (Đó là, ngoài yêu cầu rằng độ dốc của chúng tôi không thay đổi quá nhanh, giờ đây chúng tôi có một yêu cầu tương tự đối với Hessian của chúng tôi. Về cơ bản, các tác giả đang tìm kiếm một điểm giống như cực tiểu trong cả đạo hàm thứ nhất và thứ hai.r h o
Phương pháp mà họ thực hiện điều này là sử dụng một biến thể (chọn yêu thích của bạn) về độ dốc gốc ngẫu nhiên trong hầu hết thời gian. Nhưng bất cứ nơi nào họ gặp phải một điểm mà , họ sử dụng phương pháp đặt hàng thứ hai được chọn phù hợp để thoát khỏi yên xe. Họ cho thấy rằng bằng cách kết hợp thông tin thứ hai này khi cần, họ sẽ hội tụ đến một điểm dừng thứ hai.λtối thiểu( ∇2f( xx ) ) ≤0
Về mặt kỹ thuật, đây là một phương pháp gradient bậc hai, có thể có hoặc không thuộc các thuật toán mà bạn quan tâm.
Đây là một lĩnh vực nghiên cứu rất tích cực và tôi đã bỏ qua nhiều đóng góp quan trọng (ví dụ như Ge và cộng sự ). Tôi cũng mới tham gia chủ đề này nên câu hỏi này đã cho tôi cơ hội xem xét. Tôi rất vui khi tiếp tục thảo luận nếu có hứng thú.
*** Được lựa chọn phù hợp có nghĩa là một trong số đó được hiển thị để hội tụ đến một điểm dừng thứ hai. Họ sử dụng phương pháp Newton chính quy hóa của Nesterov và Polyak.