Chuẩn hóa L2 tương đương với Gaussian Prior

56

Tôi tiếp tục đọc nó và bằng trực giác tôi có thể thấy điều này nhưng làm thế nào một người đi từ chính quy L2 để nói rằng đây là một Gaussian Prior phân tích? Tương tự như vậy khi nói L1 tương đương với Laplacean trước đó.

Bất kỳ tài liệu tham khảo thêm sẽ là tuyệt vời.

regression references regularization

— Vô danh
nguồn

54

Hãy để chúng tôi tưởng tượng rằng bạn muốn suy ra một số tham số từ một số cặp đầu vào-đầu ra được quan sát . Chúng ta hãy giả sử rằng các đầu ra có liên quan tuyến tính với các đầu vào thông qua và dữ liệu bị hỏng bởi một số nhiễu : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

Trong đó là nhiễu Gaussian với trung bình và phương sai . Điều này dẫn đến khả năng Gaussian: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Chúng ta hãy chuẩn hóa tham số bằng cách áp dụng Gaussian trước trong đó là một vô hướng tích cực. Do đó, kết hợp khả năng và trước đó chúng ta chỉ cần có: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Hãy để chúng tôi lấy logarit của biểu thức trên. Bỏ một số hằng số chúng ta nhận được:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Nếu chúng tôi tối đa hóa biểu thức trên đối với , chúng tôi sẽ nhận được cái gọi là ước tính a-posteriori tối đa cho hoặc ước tính MAP. Trong biểu thức này, rõ ràng tại sao Gaussian trước có thể được hiểu là một thuật ngữ chính quy L2. $\beta$ $\beta$

Tương tự như vậy, mối quan hệ giữa định mức L1 và Laplace trước có thể được hiểu theo cùng một cách. Thay vì Gaussian trước, Laplace trước kết hợp nó với khả năng của bạn và lấy logarit.

Một tài liệu tham khảo tốt (có lẽ hơi tiên tiến) nêu chi tiết cả hai vấn đề là bài viết "Độ thích ứng thưa thớt cho việc học có giám sát", hiện không dễ tìm thấy trên mạng. Hoặc xem "Độ thích ứng thưa thớt bằng cách sử dụng Jeffreys Prior" . Một tài liệu tham khảo tốt khác là "Phân loại Bayes với các linh mục Laplace" .

— ngiann
nguồn

1

Trong một D dimensiontrường hợp hồi quy tuyến tính, có thể betavà sigmacó giải pháp rõ ràng? Tôi đang đọc PRML và tìm phương trình (1.67) trên trang 30 và không biết làm thế nào để giải quyết nó. Trong khả năng tối đa, chúng tôi giải quyết betavà sau đó sigmabằng cách đặt độ dốc về không. Trong bình phương tối thiểu thường xuyên, vì một số thông số lambdađược biết đến, chúng tôi giải quyết betatrực tiếp. Nhưng nếu chúng ta trực tiếp giải quyết MAP, trình tự giải quyết là gì beta, sigma? Họ có thể có giải pháp rõ ràng hay chúng ta phải sử dụng một quá trình lặp lại?

— stackunderflow

Bạn có đang thiếu một "hình vuông" trên trong phương trình cuối cùng tức là không?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

— brian.keng

@AdamO Nó giới hạn số lượng giá trị mà các hệ số có thể lấy. Nếu trước đó là giữa 1-10, thì có 0 xác suất hệ số lấy bất kỳ giá trị nào khác, tức là [-inf đến 1] và [10, + inf].

— imsrgadich

1

Trong trường hợp này được biết đến. Nó có hoạt động khi không biết không? Đối với hồi quy tuyến tính Bayes, một gamma nghịch đảo trước có thể được sử dụng để tạo liên hợp trước phương sai. Nhưng tôi không chắc đại số sẽ có cùng biểu thức.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

— AdamO

11

Đối với một mô hình tuyến tính với khả năng bình thường đa biến trước và đa biến bình thường, bạn kết thúc với phân phối sau thông thường đa biến trong đó giá trị trung bình của mô hình sau (và tối đa là mô hình posteriori) chính xác là những gì bạn sẽ có được khi sử dụng Tikhonov được chuẩn hóa ( chính quy) bình phương tối thiểu với một tham số chính quy thích hợp. $L_{2}$

Lưu ý rằng có một sự khác biệt cơ bản hơn ở chỗ, phần sau của Bayes là phân phối xác suất, trong khi giải pháp bình phương tối thiểu hóa Tikhonov là một ước tính điểm cụ thể.

Điều này được thảo luận trong nhiều sách giáo khoa về các phương pháp Bayes cho các vấn đề nghịch đảo, Xem ví dụ:

http://www.amazon.com/Inverse-Probols-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Probols-Second/dp/0123850487/

Tương tự, nếu bạn có Laplacian trước và khả năng bình thường đa biến, thì mức tối đa của phân phối sau xảy ra tại một điểm mà bạn có thể nhận được bằng cách giải bài toán bình phương tối thiểu . $L_{1}$

— Brian Borchers
nguồn

9

Đầu tiên lưu ý rằng trung vị giảm thiểu định mức L1 (xem tại đây hoặc tại đây để tìm hiểu thêm về L1 và L2)

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

trong khi đó có nghĩa là giảm thiểu L2

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

bây giờ, hãy nhớ rằng tham số phân phối bình thường có thể được ước tính bằng cách sử dụng giá trị trung bình mẫu , trong khi công cụ ước tính MLE cho tham số Laplace phân phối là trung vị. Vì vậy, sử dụng phân phối Bình thường tương đương với tối ưu hóa định mức L2 và sử dụng phân phối Laplace, để sử dụng tối ưu hóa L1. Trong thực tế, bạn có thể nghĩ về điều đó vì trung vị ít nhạy cảm với các ngoại lệ hơn so với trung bình và tương tự, sử dụng phân phối Laplace đuôi rộng hơn trước làm cho mô hình của bạn ít bị ngoại lệ hơn so với sử dụng phân phối Bình thường. $\mu$ $\mu$

Hurley, WJ (2009) Một cách tiếp cận quy nạp để tính toán MLE cho phân bố hàm mũ đôi . Tạp chí Phương pháp thống kê ứng dụng hiện đại: 8 (2), Điều 25.

— Tim
nguồn

Có lẽ đây không phải là câu trả lời khắt khe nhất về mặt toán học được đưa ra ở đây, nhưng đây chắc chắn là câu trả lời dễ nhất, trực quan nhất cho người mới bắt đầu sử dụng chính quy L1 / L2.

— SQLServerSteve

8

Đối với bài toán hồi quy với biến (w / o chặn), bạn thực hiện OLS như $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

Trong hồi quy thường xuyên với hình phạt bạn làm $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Chúng ta có thể làm tương tự (lưu ý các thay đổi dấu hiệu)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Điều này liên quan trực tiếp đến nguyên tắc Bayes của

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

hoặc tương đương (trong điều kiện thường xuyên)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Bây giờ không khó để thấy phân phối gia đình theo cấp số nhân tương ứng với loại hình phạt nào.

— Georg M. Goerg
nguồn

3

Để đặt sự tương đương chính xác hơn:

Tối ưu hóa các trọng số mô hình để giảm thiểu hàm mất lỗi bình phương với chính quy L2 tương đương với việc tìm các trọng số có khả năng nhất theo phân phối sau được đánh giá bằng quy tắc Bayes, với trọng số Gaussian độc lập trung bình bằng 0

Bằng chứng:

Hàm mất mát như mô tả ở trên sẽ được cung cấp bởi

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Lưu ý rằng phân phối cho một Gaussian đa biến là

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

Sử dụng quy tắc Bayes, chúng ta có điều đó

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Nơi chúng tôi có thể phân chia Guassian đa chiều thành một sản phẩm, bởi vì hiệp phương sai là bội số của ma trận danh tính.

Lấy xác suất nhật ký âm

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

Tất nhiên chúng ta có thể bỏ hằng số, và nhân với bất kỳ số tiền nào mà không ảnh hưởng cơ bản đến chức năng mất. (hằng số không làm gì, phép nhân có hiệu quả tỷ lệ học tập. Sẽ không ảnh hưởng đến vị trí cực tiểu) Vì vậy, chúng ta có thể thấy rằng xác suất log âm của phân phối sau là một hàm mất tương đương với hàm mất lỗi vuông bình thường L2.

Sự tương đương này là chung và giữ cho bất kỳ chức năng tham số hóa nào của trọng số - không chỉ là hồi quy tuyến tính như dường như được ngụ ý ở trên.

— niken37
nguồn

1

Có hai đặc điểm của mô hình Bayes cần được nhấn mạnh, khi thảo luận về sự tương đương của ước tính khả năng tối đa bị phạt nhất định và các thủ tục Bayes.

Trong khuôn khổ Bayes, ưu tiên được lựa chọn dựa trên các chi tiết cụ thể của vấn đề và không được thúc đẩy bởi phương pháp tính toán. Do đó, người Bayes sử dụng nhiều loại linh mục bao gồm móng ngựa phổ biến hiện nay trước các vấn đề dự đoán thưa thớt và không cần phụ thuộc quá nhiều vào các linh mục tương đương với hình phạt L1 hoặc L2.
Với cách tiếp cận Bayes đầy đủ, bạn có quyền truy cập vào tất cả các thủ tục suy luận khi bạn hoàn thành. Ví dụ: bạn có thể định lượng bằng chứng cho các hệ số hồi quy lớn và bạn có thể nhận được các khoảng đáng tin cậy về các hệ số hồi quy và các giá trị dự đoán tổng thể. Trong khuôn khổ thường xuyên, một khi bạn chọn hình phạt, bạn sẽ mất tất cả các máy suy luận.

— Frank Mitchell
nguồn