Chính quy hóa thưa thớt cho ma trận ngẫu nhiên

10

Điều nổi tiếng (ví dụ trong lĩnh vực cảm biến nén) rằng định mức là "cảm ứng thưa thớt", theo nghĩa là nếu chúng ta giảm thiểu chức năng (đối với ma trận và vectơ cố định ) cho đủ lớn , chúng tôi có thể có nhiều lựa chọn về , và để có nhiều mục nhập chính xác bằng 0 trong kết quả . $L_1$ $A$ $\vec{b}$

f_{A, \vec{b}} (\vec{x}) = ‖ A \vec{x} - \vec{b} ‖_{2}^{2} + λ ‖ \vec{x} ‖_{1}

$f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1$

λ > 0

$\lambda>0$

A

$A$

\vec{b}

$\vec{b}$

λ

$\lambda$

\vec{x}

$\vec{x}$

Nhưng nếu chúng tôi thu nhỏ với điều kiện các mục của là dương và tổng bằng , thì thuật ngữ không có tác dụng gì (vì bởi fiat). Có một trình chỉnh sửa -type tương tự hoạt động trong trường hợp này để khuyến khích rằng kết quả là thưa thớt không? $f_{A,\vec{b}}$ $\vec{x}$ $1$ $L_1$ $\|\vec{x}\|_1=1$ $L_1$ $\vec{x}$

— Justin Solomon
nguồn

Bạn có thể giải thích thêm về "sau đó thuật ngữ

L_{1}

$L_1$ không có bất kỳ ảnh hưởng nào (vì

| | x | |_{1} = 1

$||x||_1 = 1$ bởi fiat)"?

— Cam.Davidson.Pilon

2

@ Cam.Davidson.Pilon:

x_{i} \geq 0

$x_i \geq 0$ và

\sum_{i} x_{i} = 1

$\sum_i x_i = 1$ ngụ ý

‖ x ‖_{1} = 1

$\|x\|_1 = 1$ . :)

— Đức hồng y

1

Justin: Một số chi tiết có thể cho một cơ hội tốt hơn ở một câu trả lời hữu ích. Dưới đây là một số câu hỏi ngay lập tức phát sinh khi đọc mô tả của bạn: ( 1 ) "Ma trận ngẫu nhiên" ở đâu trong tất cả những điều này? Bạn dường như chỉ mô tả một tình huống liên quan đến một vectơ ngẫu nhiên . Đây chỉ có thể là các hàng riêng lẻ của ma trận ngẫu nhiên của bạn hoặc cấu trúc khác có thể trở nên rõ ràng một khi có thêm chi tiết. ( 2 ) Bạn muốn bản thân xác suất thưa thớt, hoặc có lẽ, thưa thớt trong một số cơ sở thích hợp? Nếu là người đầu tiên, tại sao? (Đây có phải là một số bước đi ngẫu nhiên trên biểu đồ có trọng số (thưa thớt) không?)

— hồng y

Tại sao bạn yêu cầu các mục của là dương ? Thay vào đó bạn nên yêu cầu họ là không âm ? Ngoài ra, bạn đã xem xét tái tham số hóa để loại bỏ các ràng buộc (giả sử bạn có nghĩa là không âm)? Nói cách khác, hãy thử

\vec{x}

$\vec x$

x_{i} = \frac{\exp (w_{i})}{\sum_{j} \exp (w_{j})}

$x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$

— jrennie

1

@jrennie: Với bối cảnh, bởi Justin tích cực chắc chắn có nghĩa là không âm .

— Đức hồng y

2

Một phương pháp chung để tạo ra các giải pháp thưa thớt là thông qua ước tính MAP với giá trị trung bình bằng 0 trước khi có phương sai không xác định.

p (x_{i} | σ_{i}^{2}) \sim N (0, σ_{i}^{2})

$p(x_i|\sigma_i^2)\sim N(0,\sigma_i^2)$

Nếu sau đó bạn chỉ định trước có chế độ ở mức 0 thì chế độ sau thường thưa thớt. Các phát sinh từ phương pháp này bằng cách tham gia một phân phối trộn theo cấp số nhân. $\sigma_i^2$ $L_1$

p (σ_{i}^{2} | λ) \sim E x p o (\frac{λ^{2}}{2})

$p(\sigma_i^2|\lambda)\sim Expo\left(\frac{\lambda^2}{2}\right)$

Sau đó, bạn nhận được

\log [p (x_{i} | λ)] = - λ | x_{i} | + \log [\frac{λ}{2}]

$\log[p(x_i|\lambda)]=-\lambda | x_i|+\log\left[\frac{\lambda}{2}\right]$

Một số lựa chọn thay thế là pareto đôi tổng quát, một nửa cauch, beta đảo ngược. Trong một số ý nghĩa, những thứ này tốt hơn Lasso vì chúng không thu nhỏ các giá trị lớn. Trong thực tế, tôi khá chắc chắn rằng pareto kép tổng quát có thể được viết dưới dạng hỗn hợp của số mũ. Đó là chúng ta viết và sau đó đặt một gamma trước . Chúng tôi nhận được: $\lambda=\lambda_i$ $p(\lambda_i|\alpha\beta)$

p (x_{i} | α β) = \frac{α}{2 β} {(1 + \frac{| x_{i} |}{β})}^{- (α + 1)}

$p(x_i|\alpha\beta)=\frac{\alpha}{2\beta}\left(1+\frac{|x_i|}{\beta}\right)^{-(\alpha+1)}$

Lưu ý rằng tôi đã bao gồm các hằng số chuẩn hóa, vì chúng giúp chọn các tham số toàn cầu tốt. Bây giờ nếu chúng ta áp dụng giới hạn phạm vi thì chúng ta có một vấn đề phức tạp hơn, vì chúng ta cần tái chuẩn hóa trên đơn giản.

Một đặc điểm chung khác của các hình phạt gây ra thưa thớt là chúng không khác biệt ở mức 0. Thông thường điều này là do các giới hạn bên trái và bên phải là dấu hiệu ngược lại.

Điều này dựa trên công trình tuyệt vời của Nicolas Arlingtonon và James Scott về các biểu diễn hỗn hợp có nghĩa là phương sai mà họ sử dụng để phát triển TIRLS - một phần mở rộng lớn của các hình vuông nhỏ nhất cho một lớp kết hợp hình phạt thua lỗ rất lớn.

Để thay thế, bạn có thể sử dụng một ưu tiên được xác định trên đơn giản, nhưng có các chế độ trong phân phối biên ở mức 0. Một ví dụ là phân phối dirichlet với tất cả các tham số từ 0 đến 1. Hình phạt ngụ ý sẽ như sau:

- \sum_{i = 1}^{n - 1} (a_{i} - 1) \log (x_{i}) - (a_{n} - 1) \log (1 - \sum_{i = 1}^{n - 1} x_{i})

$-\sum_{i=1}^{n-1}(a_i-1)\log(x_i) - (a_n-1)\log(1-\sum_{i=1}^{n-1}x_i)$

Trong đó . Tuy nhiên, bạn sẽ cần phải cẩn thận trong việc tối ưu hóa số lượng vì hình phạt có điểm kỳ dị. Một quá trình ước tính mạnh mẽ hơn là sử dụng trung bình sau. Mặc dù bạn mất độ thưa chính xác, bạn sẽ nhận được nhiều phương tiện sau gần với zero.p $0<a_i<1$

— xác suất
nguồn

Đây có vẻ là một ý tưởng rất thú vị, mặc dù chúng tôi không hoàn toàn được trang bị để hiểu chi tiết! Nếu tôi hiểu chính xác, ý tưởng là trước xuất phát từ một giả định rằng các biến tuân theo phân phối hàm mũ khoảng 0. Vì vậy, chúng ta cần một phân phối tập trung ở 0 hoạt động tốt hơn cho các biến của chúng tôi. Nhưng, không có người chiến thắng rõ ràng, phải không? Có phân phối trên "các biến tích cực có tổng bằng 1" không? Cảm ơn bạn đã giúp đỡ!

L_{1}

$L_1$

— Justin Solomon

Để có được sự thưa thớt, bạn cần một bản phân phối với chế độ ở mức 0. Và phân phối dirichlet là trên đơn giản, đó chính xác là các phân phối có tổng bằng 1. Một lớp chung khác là logistic-normal hoặc logistic t trong đó bạn có phân phối bình thường / t cho

\log [\frac{x_{i}}{x_{n}}]

$\log\left[\frac{x_i}{x_n}\right]$

— xác suất

Ah, Dirichlet có vẻ khá thú vị ở chỗ nó đơn giản mà chúng tôi quan tâm, như bạn đề cập! Có vẻ như hai người khác mà bạn đề cập có thể giới thiệu một số bất đối xứng trên , phải không? Cộng tác viên của tôi và tôi sẽ làm việc thông qua chức năng năng lượng được ngụ ý bởi Dirichlet vào ngày mai và sẽ báo cáo lại! Rất cám ơn sự giúp đỡ của bệnh nhân của bạn cho đến nay - điều này khác xa với lĩnh vực thông thường của chúng tôi nhưng nếu chúng tôi có thể giải quyết được thì kết quả có thể cung cấp một bước tiến đáng kể trong xử lý hình học! [Và tất nhiên chúng tôi sẽ cung cấp cho bạn khoản tín dụng đúng hạn!]

x_{n}

$x_n$

— Justin Solomon

1

Hai lựa chọn:

Sử dụng hình phạt trên . Hạn chế rõ ràng là điều này là không thuyết phục và do đó khó tối ưu hóa. $L_0$ $\vec x$
Xác định lại tham số, và sử dụng hình phạt trên vectơ tham số (tự nhiên) mới,. Điều này sẽ khuyến khích các sự kiện có thể xảy ra như nhau trừ khi có lý do chính đáng để chúng không xảy ra. $x_i = \frac{\exp(w_i)}{\sum_j \exp(w_j)}$ $\|\vec w\|$

— jrennie
nguồn

Bạn có thể giải thích làm thế nào sự tái tổ chức của bạn khuyến khích sự thưa thớt? Nó dường như đảm bảo hoàn toàn ngược lại.

— Đức hồng y

Nó khuyến khích sự thưa thớt trong tương ứng với việc khuyến khích các mục khác nhau của có cùng giá trị.

\vec{w}

$\vec w$

\vec{x}

$\vec x$

— jrennie

Vâng, tôi hiểu điều đó. Nhưng, những giá trị đó sẽ không bằng không. Nếu chúng ta sử dụng OP theo nghĩa đen, điều này sẽ không giúp ích và thực sự sẽ "tổn thương" (theo một nghĩa nào đó). Nhưng, có thể OP quan tâm đến sự thưa thớt đối với một số cơ sở khác, trong trường hợp này, đây sẽ là một trong số đó. :)

— Đức hồng y

Đó là lý do tại sao tôi cung cấp hai tùy chọn trong câu trả lời của mình --- Tôi nghĩ rằng hình phạt không liên quan sẽ được yêu cầu để khuyến khích các số không trong . Như bạn đã lưu ý, Justin có thể không có nghĩa đen như những gì anh ấy nói.

\vec{x}

$\vec x$

— jrennie

Vâng, thật không may, chúng tôi cần sự thưa thớt trong cơ sở nhận dạng. Vì vậy, trong trường hợp này, chúng tôi muốn có càng nhiều càng tốt bằng .

w_{i}

$w_i$

- \infty

$-\infty$

— Justin Solomon

1

Tiền đề của câu hỏi chỉ đúng một phần. Mặc dù đúng là -norm chỉ là một hằng số theo ràng buộc, nhưng vấn đề tối ưu hóa ràng buộc rất có thể có một giải pháp thưa thớt. $L_1$

Tuy nhiên, giải pháp không bị ảnh hưởng bởi sự lựa chọn của , do đó, có giải pháp thưa thớt hay không. Một câu hỏi khác là làm thế nào để thực sự tìm ra giải pháp. Tất nhiên, một trình tối ưu hóa bậc hai tiêu chuẩn theo các ràng buộc tuyến tính có thể được sử dụng, nhưng các thuật toán gốc tọa độ phổ biến không thể được sử dụng ngoài luồng. $\lambda$

Một gợi ý có thể là chỉ tối ưu hóa theo một điều kiện chống chỉ định tích cực, đối với các khác nhau , và sau đó tái chuẩn hóa giải pháp để có -norm 1. Tôi tin rằng thuật toán gốc tọa độ có thể dễ dàng sửa đổi để tính toán giải pháp theo mức độ tích cực hạn chế. $\lambda$ $L_1$

— NRH
nguồn

0

Tôi có thể nghĩ ra ba phương pháp.

Phương pháp Bayes: giới thiệu phân phối trước trung bình bằng 0 và sử dụng khả năng loại II để ước tính các tham số và siêu tham số.
Thay vào đó, hãy sử dụng . Điều này không khác biệt mặc dù. Bạn có thể sử dụng một tiêu chuẩn cao để ước tính nó. $\Vert\cdot\Vert_{\infty}$
Sử dụng . $-\sum_{i=1}\log x_i$

Trong thực tế, phương pháp thứ nhất và thứ ba là như nhau.

— Hán Trương
nguồn