Trực giác đằng sau Phương pháp định hướng xen kẽ của số nhân


8

Gần đây tôi đã đọc rất nhiều bài báo về ADMM và cũng đã cố gắng giải quyết một số vấn đề bằng cách sử dụng nó, trong đó tất cả đều rất hiệu quả. Ngược lại với các phương pháp tối ưu hóa khác, tôi không thể có được trực giác tốt về cách thức và lý do tại sao phương pháp này hiệu quả đến vậy (tất nhiên, tôi đã thấy phân tích hội tụ trong một vài trường hợp, nhưng không có gì giúp tôi hiểu quá nhiều). Có một số trực giác đằng sau ADMM? Làm thế nào mà các nhà khoa học đầu tiên sử dụng nó nảy ra ý tưởng này? Một số trực giác hình học sẽ là tốt nhất, nhưng bất kỳ ai cũng có cái nhìn sâu sắc sẽ giúp đỡ.


Bạn có thể đánh vần ADMM là gì không?
Bill Barth

@BillBarth - Chắc chắn :) Phương pháp đa hướng thay thế (xem ví dụ stanford.edu/~boyd/admm.html )
olamundo

1
Ít nhất bạn có thể nói những gì về bài báo gốc mà bạn thấy không rõ ràng không?
Kirill

3
@Kirill Chỉ là một nit: Giấy của Boyd hầu như không phải là giấy ADMM gốc. Nó là một tài liệu tham khảo tốt, nhưng thuật toán quay trở lại Douglas và Rachford (1956) và được tiếp tục phát triển và phân tích từ những năm 1970 đến 1990. Nó đã chứng kiến ​​sự hồi sinh trong những năm gần đây chủ yếu là do sự ồn ào xung quanh việc chuẩn hóa . 1
Jed Brown

2
ADMM đã nhận được rất nhiều sự chú ý bởi vì nó rất hiệu quả để giải quyết các vấn đề trong chính quy hóa , nhưng nó không phải là một phương pháp thường hữu ích cho tất cả các vấn đề tối ưu hóa. Một câu hỏi tốt hơn sẽ là tại sao ADMM rất hiệu quả trong bối cảnh. Công việc của Osher và Yin về các phương pháp Bregman phân chia (về cơ bản tương đương với ADMM) giúp giải thích điều này. Xem trang tại caam.rice.edu/~optimization/L1/bregmanL1
Brian Borchers

Câu trả lời:


10

F G A B

minx,y F(x)+G(y),s.tAx+By=c
FGAB

Tôi tìm thấy trường hợp đặc biệt sau đây của , và minh họa. Trong trường hợp này, ràng buộc nói , tức là chúng ta có thể thay thế để có được vấn đề Bây giờ việc giải quyết vấn đề này có thể khó khăn, trong khi giải quyết các vấn đề có dạng có thể dễ dàng. (Bạn có thể tự tạo ra các ví dụ cho điều này, một ví dụ phổ biến là và ). Trong ADMM, bạn bắt đầu từ "biểu mẫu đã tách" và xây dựng "Lagragian tăng cường" A=IB=Ic=0xy=0

minxF(x)+G(x).
minxρF(x)+12xz2
F(x)=λx1G(x)=12Axb2
minx,y F(x)+G(y),s.txy=0
Lρ(x,y,z)=F(x)+G(y)+zT(xy)+ρ2xy2
với hệ số nhân Lagrange . Bây giờ, bạn luân phiên tối thiểu hóa Lagragian tăng theo các hướng và khác nhau , tức là lặp và cập nhật hệ số nhân theo Điều này sẽ giải thích tên phương pháp xen kẽ tên của số nhân .z xy
xk+1=argminx Lρ(x,yk,zk)
yk+1=argminy Lρ(xk+1,y,z)
zk+1=zk+ρ(xk+1yk+1).

Phân tích những vấn đề giảm thiểu cho và gần hơn, bạn nhận thấy rằng đối với mỗi lần cập nhật chỉ cần để giải quyết một vấn đề của "hình thức đơn giản hơn", ví dụ như cho update (bỏ qua các thuật ngữ không phụ thuộc vào ).xyx

xk+1=argminx F(x)+ρ2xyk+ρzk2
x

ADMM cho vấn đề có nguồn gốc tương tự nhưng sau đó các sự cố trung gian cho các bản cập nhật vẫn là a hơi khó khăn nhưng có thể tương đối đơn giản so với bản gốc. Đặc biệt trong trường hợp và (hoặc tương đương , và ràng buộc ) các bản cập nhật ít nhiều dễ thực hiện.

minx,y F(x)+G(y),s.tAx+By=c
F(x)=λx1G(x)=12Axb2F(x)=λx1G(y)=12y2Axy=b

Đẹp! Nó cũng hữu ích để hiển thị những gì xảy ra cho 3 khối (Có những trường hợp nó sẽ hoạt động, ví dụ, ma trận giải mã).
Royi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.