Định nghĩa và sự hội tụ của các ô vuông tối thiểu lặp đi lặp lại


16

Tôi đã sử dụng các bình phương tối thiểu lặp lại (IRLS) để giảm thiểu các chức năng của mẫu sau,

J(m)=i=1Nρ(|xim|)

Trong đó là số phiên bản của , là ước tính mạnh mẽ mà tôi muốn và là một hàm hình phạt mạnh mẽ phù hợp. Hãy nói rằng nó lồi (mặc dù không nhất thiết phải nghiêm ngặt) và khác biệt cho đến bây giờ. Một ví dụ điển hình của là hàm mất Huber .NxiRmRρρ

Những gì tôi đã làm là phân biệt với (và thao tác) để có được,J(m)m

dJdm=i=1Nρ(|xim|)|xim|(xim)

và lặp lại giải quyết điều này bằng cách đặt nó bằng 0 và sửa trọng số tại lần lặp thành (lưu ý rằng các dị coi tại x_i = m {(k)} thực sự là một điểm kỳ dị di động trong tất cả \ rho 's tôi có thể quan tâm đến). Sau đó tôi có được,kwi(k)=ρ(|xim(k)|)|xim(k)|xi=m(k)ρ

i=1Nwi(k)(xim(k+1))=0

và tôi giải quyết để có được, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Tôi lặp lại thuật toán điểm cố định này cho đến khi "hội tụ". Tôi sẽ lưu ý rằng nếu bạn đạt đến một điểm cố định, bạn là tối ưu, vì đạo hàm của bạn là 0 và đó là hàm lồi.

Tôi có hai câu hỏi về thủ tục này:

  1. Đây có phải là thuật toán IRLS tiêu chuẩn? Sau khi đọc một số bài viết về chủ đề này (và chúng rất phân tán và mơ hồ về IRLS là gì) đây là định nghĩa nhất quán nhất về thuật toán tôi có thể tìm thấy. Tôi có thể đăng bài nếu mọi người muốn, nhưng tôi thực sự không muốn thiên vị bất cứ ai ở đây. Tất nhiên, bạn có thể khái quát kỹ thuật cơ bản này cho nhiều loại vấn đề khác liên quan đến vectơ xi và các đối số khác ngoài |xim(k)|, cung cấp đối số là một chỉ tiêu của hàm affine của các tham số của bạn. Bất kỳ trợ giúp hoặc cái nhìn sâu sắc sẽ là tuyệt vời về điều này.
  2. Sự hội tụ dường như hoạt động trong thực tế, nhưng tôi có một vài lo ngại về nó. Tôi vẫn chưa thấy một bằng chứng về nó. Sau một số mô phỏng Matlab đơn giản, tôi thấy rằng một lần lặp này không phải là ánh xạ co lại (tôi đã tạo hai trường hợp ngẫu nhiên của và tính toán và thấy rằng điều này đôi khi lớn hơn 1). Ngoài ra, ánh xạ được xác định bởi một số lần lặp liên tiếp không hoàn toàn là ánh xạ co, nhưng xác suất của hằng số Lipschitz ở trên 1 rất thấp. Vì vậy, có một khái niệm về một ánh xạ co trong xác suất ? Máy móc tôi sử dụng để chứng minh rằng điều này hội tụ là gì? Nó thậm chí còn hội tụ?m|m1(k+1)m2(k+1)||m1(k)m2(k)|

Bất kỳ hướng dẫn nào đều hữu ích.

Chỉnh sửa: Tôi thích bài báo trên IRLS về phục hồi / cảm biến nén thưa thớt của Daubechies et al. 2008 "Lặp lại tối thiểu hóa tối thiểu bình phương tối thiểu để phục hồi thưa thớt" trên arXiv. Nhưng nó dường như tập trung chủ yếu vào các trọng số cho các vấn đề không liên quan. Trường hợp của tôi đơn giản hơn đáng kể.


Nhìn vào trang wiki trên IRWLS, tôi đấu tranh với sự khác biệt giữa quy trình bạn mô tả và IRWLS (họ chỉ sử dụng làm chức năng cụ thể của họ ). Bạn có thể giải thích theo cách bạn nghĩ thuật toán bạn đề xuất khác với IRWLS không? ρ|yixxiββ|2ρ
dùng603

Tôi chưa bao giờ nói rằng nó khác biệt, và nếu tôi ngụ ý nó, tôi không có ý đó.
Chris A.

Câu trả lời:


10

Đối với câu hỏi đầu tiên của bạn, người ta nên định nghĩa "tiêu chuẩn" hoặc thừa nhận rằng "mô hình chính tắc" đã dần được thiết lập. Như một nhận xét đã chỉ ra, ít nhất thì cách bạn sử dụng IRWLS là khá chuẩn.

Đối với câu hỏi thứ hai của bạn, "ánh xạ co trong xác suất" có thể được liên kết (tuy nhiên không chính thức) để hội tụ "thuật toán ngẫu nhiên đệ quy". Từ những gì tôi đọc, có một tài liệu khổng lồ về chủ đề chủ yếu trong Kỹ thuật. Trong Kinh tế học, chúng tôi sử dụng một chút xíu của nó, đặc biệt là các tác phẩm tinh xảo của Lennart Ljung - bài báo đầu tiên là Ljung (1977) - cho thấy sự hội tụ (hoặc không) của thuật toán ngẫu nhiên đệ quy có thể được xác định bởi độ ổn định (hoặc không) của một phương trình vi phân thông thường liên quan.

(những gì tiếp theo đã được làm lại sau một cuộc thảo luận hiệu quả với OP trong các bình luận)

Hội tụ

Tôi sẽ sử dụng làm tài liệu tham khảo Saber Elaydi "Giới thiệu về phương trình khác biệt", 2005, 3d ed. Phân tích có điều kiện trên một số mẫu dữ liệu nhất định, do đó được coi là cố định. xs

Điều kiện bậc nhất để tối thiểu hóa hàm mục tiêu, được xem như là một hàm đệ quy theo , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

có một điểm cố định (argmin của hàm mục tiêu). Theo Định lý 1.13 trang 27-28 của Elaydi, nếu đạo hàm đầu tiên liên quan đến của RHS của , được đánh giá tại điểm cố định , ký hiệu là , nhỏ hơn thống nhất trong giá trị tuyệt đối, sau đó là tiệm ổn định (AS). Hơn nữa theo Định lý 4.3 tr.179 chúng ta có điều này cũng ngụ ý rằng điểm cố định là thống nhất AS (UAS). "Ổn định không có triệu chứng" có nghĩa là đối với một số phạm vi giá trị xung quanh điểm cố định, một vùng lân cận , không nhất thiết phải có kích thước nhỏ, điểm cố định là hấp dẫn[ 1 ] m * Một ' ( m * ) m *m[1]mA(m)m
(m±γ)và do đó, nếu thuật toán đưa ra các giá trị trong vùng lân cận này, nó sẽ hội tụ. Thuộc tính là "thống nhất", có nghĩa là ranh giới của vùng lân cận này, và do đó kích thước của nó, độc lập với giá trị ban đầu của thuật toán. Điểm cố định trở thành UAS toàn cầu , nếu . Vì vậy, trong trường hợp của chúng tôi, nếu chúng tôi chứng minh rằngγ=

|A(m)||i=1Nvi(m)mxi|<1[2]

chúng tôi đã chứng minh tài sản UAS, nhưng không có sự hội tụ toàn cầu. Sau đó, chúng ta có thể cố gắng xác định rằng vùng lân cận thu hút trên thực tế là toàn bộ số thực mở rộng, hoặc, giá trị bắt đầu cụ thể mà OP sử dụng như được đề cập trong các nhận xét (và đó là tiêu chuẩn trong phương pháp IRLS), nghĩa là mẫu của 's, , luôn thuộc vùng lân cận của điểm cố định.xx¯

Chúng tôi tính đạo hàm

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]
Sau đó

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

chúng ta có

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Chèn cái này vào chúng ta có[3]

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

Đây là điều kiện phải được thỏa mãn cho điểm cố định là UAS. Vì trong trường hợp của chúng tôi, hàm hình phạt là lồi, các khoản tiền liên quan là dương. Vì vậy, điều kiện tương đương với[4]

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

Nếu là hàm mất của Hubert, thì chúng ta có một nhánh bậc hai ( ) và nhánh tuyến tính ( ),ρ(|xim|)ql

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Vì chúng tôi không biết có bao nhiêuĐặt chúng ta vào nhánh bậc hai và có bao nhiêu trong tuyến tính, chúng ta phân tách điều kiện thành ( )|xim|[5]Nq+Nl=N

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

mà giữ. Vì vậy, đối với hàm mất Huber, điểm cố định của thuật toán là ổn định không có triệu chứng, không phụ thuộc vào . Chúng tôi lưu ý rằng đạo hàm đầu tiên nhỏ hơn thống nhất về giá trị tuyệt đối cho bất kỳ , không chỉ điểm cố định. xm

Những gì chúng ta nên làm bây giờ là chứng minh rằng thuộc tính UAS cũng là toàn cục hoặc nếu thì thuộc về vùng lân cận của .m(0)=x¯m(0)m


Cảm ơn vì sự trả lời. Hãy cho tôi một chút thời gian để phân tích câu trả lời này.
Chris A.

Chắc chắn rồi. Rốt cuộc, câu hỏi đã đợi 20 tháng.
Alecos Papadopoulos

Vâng, tôi đã được nhắc nhở về vấn đề và quyết định đưa ra một tiền thưởng. :)
Chris A.

May mắn cho tôi Tôi đã không ở đó 20 tháng trước - tôi có thể đưa ra câu hỏi này, tiền thưởng hay không.
Alecos Papadopoulos

Cảm ơn rất nhiều cho phản ứng này. Có vẻ như, cho đến nay, bạn đã kiếm được tiền thưởng. BTW, việc lập chỉ mục của bạn trên đạo hàm của wrt là kỳ lạ. Không thể tổng kết trên dòng thứ hai của điều này sử dụng một biến khác, chẳng hạn như ? vimj
Chris A.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.