Nghiên cứu lý thuyết về phương pháp gốc tọa độ


14

Tôi đang chuẩn bị một số tài liệu khóa học về heuristic để tối ưu hóa, và đã xem xét các phương pháp gốc tọa độ. Cài đặt ở đây là một hàm đa biến mà bạn muốn tối ưu hóa. f có thuộc tính giới hạn trong bất kỳ biến đơn lẻ nào, rất dễ tối ưu hóa. Vì vậy, phối hợp gốc tiến hành bằng cách đạp xe qua tọa độ, sửa tất cả trừ cái đã chọn và giảm thiểu dọc theo tọa độ đó. Cuối cùng, các cải tiến chậm lại và bạn chấm dứt.ff

Câu hỏi của tôi là: có nghiên cứu lý thuyết nào về các phương pháp gốc tọa độ nói về tốc độ hội tụ và các tính chất của làm cho phương thức hoạt động tốt, v.v. Rõ ràng, tôi không mong đợi câu trả lời chung chung, nhưng câu trả lời làm sáng tỏ những trường hợp mà heuristic làm tốt sẽ có ích.f

Ngoài ra: kỹ thuật tối ưu hóa xen kẽ được sử dụng cho -means có thể được xem là một ví dụ về gốc tọa độ và thuật toán Frank-Wolfe có vẻ liên quan (nhưng không phải là ví dụ trực tiếp của khung)k


Ít nhất như được mô tả trong bài báo của Ken Clakrson kenclarkson.org/sga/p.pdf , Frank-Wolfe rất giống nhau. Sự khác biệt duy nhất dường như là trong FW, bạn chọn tọa độ tốt nhất để hạ xuống. Nó có cùng tính chất thưa thớt mà matus đề cập.
Sasho Nikolov

2
Sebastien Bubeck có một chuyên khảo gần đây về tối ưu hóa lồi và độ phức tạp lặp cho các phương pháp khác nhau. Có thể là một nơi hữu ích để tìm kiếm. blog.princeton.edu/imabandit/2014/05/16/ từ
Chandra Chekuri

Câu trả lời:


24

(Chỉnh sửa ghi chú: Tôi đã sắp xếp lại thứ này sau khi hoảng loạn ở độ dài của nó.)

Văn học về phối hợp gốc có thể hơi khó theo dõi. Dưới đây là một số lý do cho việc này.

  1. lp

  2. Đặt tên không chuẩn. Ngay cả thuật ngữ "xuống dốc nhất" cũng không chuẩn. Bạn có thể googling thành công bất kỳ thuật ngữ "gốc tọa độ tuần hoàn", "gốc tọa độ", "Gauss-Seidel", "Gauss-Southwell". sử dụng không nhất quán.

  3. Các biến thể tuần hoàn hiếm khi nhận được đề cập đặc biệt. Thay vào đó, thường chỉ có sự lựa chọn phối hợp duy nhất tốt nhất được thảo luận. Nhưng điều này hầu như luôn mang lại sự đảm bảo theo chu kỳ, mặc dù có thêm một yếu tố (số lượng biến): điều này là do hầu hết các phân tích hội tụ tiến hành bằng cách giới hạn thấp hơn sự cải thiện của một bước duy nhất và bạn có thể bỏ qua các tọa độ bổ sung. Cũng có vẻ khó để nói bất cứ điều gì chung chung về những gì chu kỳ mua cho bạn, vì vậy mọi người chỉ cần phối hợp tốt nhất và yếu tố n thường có thể được xác minh.nn

Tỷ lệ dưới độ lồi mạnh. Trường hợp đơn giản nhất là chức năng mục tiêu của bạn là lồi mạnh. Ở đây, tất cả các biến thể giảm độ dốc có tỷ lệ . Điều này đã được chứng minh trong cuốn sách của Boyd & Vandenberghe. Bằng chứng đầu tiên cho kết quả cho gradient descent, và sau đó sử dụng tiêu chuẩn tương đương để cung cấp cho các kết quả cho chung l p dốc gốc.O(ln(1/ϵ))lp

Những ràng buộc. Không có sự lồi lõm mạnh mẽ, bạn phải bắt đầu cẩn thận một chút. Bạn đã không nói bất cứ điều gì về các ràng buộc, và do đó nói chung, mức tối đa có thể không đạt được. Tôi sẽ nói ngắn gọn về chủ đề của các ràng buộc rằng cách tiếp cận tiêu chuẩn (với các phương pháp gốc) là chiếu vào ràng buộc của bạn đặt mỗi lần lặp để duy trì tính khả thi hoặc sử dụng các rào cản để đưa các ràng buộc vào chức năng mục tiêu của bạn. Trong trường hợp trước đây, tôi không biết làm thế nào nó chơi với phối hợp gốc; trong trường hợp sau này, nó hoạt động tốt với gốc tọa độ và các rào cản này có thể lồi mạnh.

Cụ thể hơn đối với các phương thức tọa độ, thay vì chiếu, nhiều người chỉ đơn giản thực hiện cập nhật tọa độ duy trì tính khả thi: ví dụ, điều này hoàn toàn chính xác với thuật toán Frank-Wolfe và các biến thể của nó (nghĩa là sử dụng nó để giải quyết SDP).

Tôi cũng sẽ lưu ý ngắn gọn rằng thuật toán SMO cho các SVM có thể được xem như là một phương pháp gốc tọa độ, trong đó bạn đang cập nhật hai biến cùng một lúc và duy trì một ràng buộc khả thi trong khi bạn làm như vậy. Sự lựa chọn của các biến là heuristic trong phương pháp này, và vì vậy các bảo đảm thực sự chỉ là các bảo đảm theo chu kỳ. Tôi không chắc chắn nếu kết nối này xuất hiện trong tài liệu tiêu chuẩn; Tôi đã học về phương pháp SMO từ ghi chú khóa học của Andrew Ng, và thấy chúng khá sạch sẽ.

n

O(ln(1/ϵ))

Có một số kết quả gần đây về phối hợp gốc, tôi đã thấy những thứ trên arXiv. Ngoài ra, luo & tseng có một số giấy tờ mới hơn. nhưng đây là công cụ chính

i=1mg(ai,λ)g(ai)1mλexp(1/ϵ2)O(1/ϵ)

Vấn đề với bản cập nhật chính xác. Ngoài ra, rất thường xảy ra trường hợp bạn không có bản cập nhật tọa độ đơn dạng đóng. Hoặc giải pháp chính xác có thể đơn giản là không tồn tại. Nhưng may mắn thay, có rất nhiều phương pháp tìm kiếm dòng về cơ bản có cùng các đảm bảo như một giải pháp chính xác. Tài liệu này có thể được tìm thấy trong các văn bản lập trình phi tuyến tiêu chuẩn, ví dụ như trong các cuốn sách của Bertsekas hoặc Nocedal & Wright đã đề cập ở trên.

Vis a vis đoạn thứ hai của bạn: khi chúng hoạt động tốt. Đầu tiên, nhiều phân tích được đề cập ở trên cho công việc gradient cho phối hợp gốc. Vậy tại sao không luôn luôn sử dụng tọa độ gốc? Câu trả lời là đối với nhiều vấn đề áp dụng giảm độ dốc, bạn cũng có thể sử dụng các phương pháp Newton, nhờ đó có thể chứng minh được sự hội tụ vượt trội. Tôi không biết cách nào để có được lợi thế Newton với việc hạ xuống tọa độ. Ngoài ra, chi phí cao của các phương pháp Newton có thể được giảm thiểu bằng các bản cập nhật Quasinewton (xem ví dụ LBFGS).

l0kkkkf


2
ồ đó là một câu trả lời thực sự toàn diện. Cảm ơn !
Suresh Venkat


2

Chúng tôi vừa mới viết một bài báo về arXiv ( http://arxiv.org/abs/1201.1214 ) chứng minh giới hạn chung chung cho "thuật toán thống kê" cho các vấn đề tối ưu hóa, với mỗi "vấn đề" có giới hạn thấp hơn tùy thuộc vào tính chất khác nhau.

Phối hợp gốc (và hầu hết mọi thứ khác chúng ta có thể nghĩ đến) có thể được coi là một thuật toán thống kê trong khung của chúng tôi, vì vậy hy vọng bài viết này có một số kết quả sẽ được bạn quan tâm.


Mát mẻ. Sẽ nhìn vào đó.
Suresh Venkat

2

Lưu ý rằng trong tối ưu hóa, "tốc độ hội tụ" thường có nghĩa là hành vi tiệm cận. Đó là, tỷ lệ chỉ áp dụng cho các giải pháp tối ưu. Theo nghĩa đó, Luo & Tseng đã chứng minh tốc độ hội tụ tuyến tính cho một số hàm mục tiêu lồi không mạnh trong bài báo "Về sự hội tụ của phương pháp gốc tọa độ để giảm thiểu khác biệt lồi".

Tốc độ hội tụ không tiệm cận, hay còn gọi là "độ phức tạp lặp", thường hữu ích hơn trong việc giới hạn số lần lặp của thuật toán thu nhỏ. Đối với các hàm mục tiêu lồi mạnh, độ phức tạp lặp của các phương pháp gốc tọa độ theo chu kỳ đã được thể hiện trong giới hạn Lỗi của Luo & Tseng và phân tích hội tụ các phương pháp gốc khả thi: một cách tiếp cận chung nếu sử dụng sai số toàn cục. Đối với các vấn đề lồi không mạnh, chúng tôi có một số kết quả mới về Độ phức tạp lặp của các phương pháp gốc khả thi để tối ưu hóa lồi. Để cụ thể, chúng tôi đã chỉ ra độ phức tạp lặp cho các phương pháp gốc tọa độ theo chu kỳ đối với các vấn đề, chẳng hạn như dạng kép của phương pháp SVM và phương pháp Gauss-Seidel. Hơn nữa, kết quả cũng bao gồm các phương pháp gốc khả thi khác bao gồm cả độ dốc và bạn bè.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.