(Chỉnh sửa ghi chú: Tôi đã sắp xếp lại thứ này sau khi hoảng loạn ở độ dài của nó.)
Văn học về phối hợp gốc có thể hơi khó theo dõi. Dưới đây là một số lý do cho việc này.
lp
Đặt tên không chuẩn. Ngay cả thuật ngữ "xuống dốc nhất" cũng không chuẩn. Bạn có thể googling thành công bất kỳ thuật ngữ "gốc tọa độ tuần hoàn", "gốc tọa độ", "Gauss-Seidel", "Gauss-Southwell". sử dụng không nhất quán.
Các biến thể tuần hoàn hiếm khi nhận được đề cập đặc biệt. Thay vào đó, thường chỉ có sự lựa chọn phối hợp duy nhất tốt nhất được thảo luận. Nhưng điều này hầu như luôn mang lại sự đảm bảo theo chu kỳ, mặc dù có thêm một yếu tố (số lượng biến): điều này là do hầu hết các phân tích hội tụ tiến hành bằng cách giới hạn thấp hơn sự cải thiện của một bước duy nhất và bạn có thể bỏ qua các tọa độ bổ sung. Cũng có vẻ khó để nói bất cứ điều gì chung chung về những gì chu kỳ mua cho bạn, vì vậy mọi người chỉ cần phối hợp tốt nhất và yếu tố n thường có thể được xác minh.nn
Tỷ lệ dưới độ lồi mạnh. Trường hợp đơn giản nhất là chức năng mục tiêu của bạn là lồi mạnh. Ở đây, tất cả các biến thể giảm độ dốc có tỷ lệ . Điều này đã được chứng minh trong cuốn sách của Boyd & Vandenberghe. Bằng chứng đầu tiên cho kết quả cho gradient descent, và sau đó sử dụng tiêu chuẩn tương đương để cung cấp cho các kết quả cho chung l p dốc gốc.O(ln(1/ϵ))lp
Những ràng buộc. Không có sự lồi lõm mạnh mẽ, bạn phải bắt đầu cẩn thận một chút. Bạn đã không nói bất cứ điều gì về các ràng buộc, và do đó nói chung, mức tối đa có thể không đạt được. Tôi sẽ nói ngắn gọn về chủ đề của các ràng buộc rằng cách tiếp cận tiêu chuẩn (với các phương pháp gốc) là chiếu vào ràng buộc của bạn đặt mỗi lần lặp để duy trì tính khả thi hoặc sử dụng các rào cản để đưa các ràng buộc vào chức năng mục tiêu của bạn. Trong trường hợp trước đây, tôi không biết làm thế nào nó chơi với phối hợp gốc; trong trường hợp sau này, nó hoạt động tốt với gốc tọa độ và các rào cản này có thể lồi mạnh.
Cụ thể hơn đối với các phương thức tọa độ, thay vì chiếu, nhiều người chỉ đơn giản thực hiện cập nhật tọa độ duy trì tính khả thi: ví dụ, điều này hoàn toàn chính xác với thuật toán Frank-Wolfe và các biến thể của nó (nghĩa là sử dụng nó để giải quyết SDP).
Tôi cũng sẽ lưu ý ngắn gọn rằng thuật toán SMO cho các SVM có thể được xem như là một phương pháp gốc tọa độ, trong đó bạn đang cập nhật hai biến cùng một lúc và duy trì một ràng buộc khả thi trong khi bạn làm như vậy. Sự lựa chọn của các biến là heuristic trong phương pháp này, và vì vậy các bảo đảm thực sự chỉ là các bảo đảm theo chu kỳ. Tôi không chắc chắn nếu kết nối này xuất hiện trong tài liệu tiêu chuẩn; Tôi đã học về phương pháp SMO từ ghi chú khóa học của Andrew Ng, và thấy chúng khá sạch sẽ.
n
O(ln(1/ϵ))
Có một số kết quả gần đây về phối hợp gốc, tôi đã thấy những thứ trên arXiv. Ngoài ra, luo & tseng có một số giấy tờ mới hơn. nhưng đây là công cụ chính
∑mi=1g(⟨ai,λ⟩)g(ai)m1λexp(1/ϵ2)O(1/ϵ)
Vấn đề với bản cập nhật chính xác. Ngoài ra, rất thường xảy ra trường hợp bạn không có bản cập nhật tọa độ đơn dạng đóng. Hoặc giải pháp chính xác có thể đơn giản là không tồn tại. Nhưng may mắn thay, có rất nhiều phương pháp tìm kiếm dòng về cơ bản có cùng các đảm bảo như một giải pháp chính xác. Tài liệu này có thể được tìm thấy trong các văn bản lập trình phi tuyến tiêu chuẩn, ví dụ như trong các cuốn sách của Bertsekas hoặc Nocedal & Wright đã đề cập ở trên.
Vis a vis đoạn thứ hai của bạn: khi chúng hoạt động tốt.
Đầu tiên, nhiều phân tích được đề cập ở trên cho công việc gradient cho phối hợp gốc. Vậy tại sao không luôn luôn sử dụng tọa độ gốc? Câu trả lời là đối với nhiều vấn đề áp dụng giảm độ dốc, bạn cũng có thể sử dụng các phương pháp Newton, nhờ đó có thể chứng minh được sự hội tụ vượt trội. Tôi không biết cách nào để có được lợi thế Newton với việc hạ xuống tọa độ. Ngoài ra, chi phí cao của các phương pháp Newton có thể được giảm thiểu bằng các bản cập nhật Quasinewton (xem ví dụ LBFGS).
l0kkkkf