Tại sao thuật ngữ chính quy * được thêm * vào hàm chi phí (thay vì nhân lên, v.v.)?

51

Bất cứ khi nào chính quy được sử dụng, nó thường được thêm vào hàm chi phí, chẳng hạn như trong hàm chi phí sau. Điều này có ý nghĩa trực quan với tôi vì giảm thiểu hàm chi phí có nghĩa là giảm thiểu sai số (thuật ngữ bên trái) và giảm thiểu độ lớn của các hệ số (thuật ngữ bên phải) cùng một lúc (hoặc ít nhất là cân bằng hai mức tối thiểu hóa).

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

Câu hỏi của tôi là tại sao thuật ngữ chính quy hóa này được thêm vào hàm chi phí ban đầu và không được nhân lên hay cái gì khác giữ tinh thần thúc đẩy đằng sau ý tưởng chính quy hóa? Có phải bởi vì nếu chúng ta chỉ cần thêm thuật ngữ vào nó là đủ đơn giản và cho phép chúng ta giải quyết vấn đề này một cách phân tích hoặc có một số lý do sâu xa hơn? $\alpha\|\theta\|_2^2$

regularization

— lựu đạn
nguồn

1

Một lập luận khác là thông qua định lý representer,

— jkabrg

2

số nhân lagrangian

— Haitao Du

9

Nếu bạn có nhiều biến độc lập hơn quan sát thì bạn có thể nhận được bằng không nhiều cách khác nhau, do đó nhân với bất kỳ cách nào sẽ không giúp phân biệt một mô hình hữu ích

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$

— Henry

47

Nó có một trực giác khá tốt trong khuôn khổ Bayes. Hãy xem xét rằng hàm chi phí thường xuyên có vai trò tương tự như xác suất của cấu hình tham số với các quan sát . Áp dụng định lý Bayes, chúng ta nhận được: $J$ $\theta$ $X, y$

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

Lấy nhật ký của biểu thức cho chúng ta:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

Bây giờ, giả sử là ¹ log-postior âm, . Vì thuật ngữ cuối cùng không phụ thuộc vào , chúng tôi có thể bỏ qua nó mà không thay đổi mức tối thiểu. Bạn còn lại hai thuật ngữ: 1) thuật ngữ khả năng tùy thuộc vào và và 2) thuật ngữ trước phụ thuộc vào . Hai thuật ngữ này tương ứng chính xác với thuật ngữ dữ liệu và thuật ngữ chính quy trong công thức của bạn. $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

Bạn có thể đi xa hơn và chỉ ra rằng hàm mất mà bạn đã đăng tương ứng chính xác với mô hình sau:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

trong đó các tham số đến từ phân bố Gaussian trung bình bằng 0 và các quan sát có nhiễu Gaussian trung bình bằng không. Để biết thêm chi tiết xem câu trả lời này . $\theta$ $y$

¹ Tiêu cực vì bạn muốn tối đa hóa xác suất nhưng tối thiểu hóa chi phí.

— Jan Kukacka
nguồn

5

Tôi hơi không hài lòng với câu trả lời này vì nó chỉ truyền tay sự tương ứng giữa hàm chi phí và log-postior. Nếu chi phí không tương ứng với log-postior mà thay vào đó là chính nó, chúng tôi sẽ kết luận rằng chính quy hóa nên được nhân với chi phí không chính quy (như OP đã hỏi). - Để biện minh chính xác cho câu trả lời này, bạn cần phải chứng minh lý do tại sao đó là bản ghi nhật ký mà chúng ta tương đương với chi phí. (Bạn sắp xếp với "đi xa hơn nữa", nhưng bạn sẽ có một chút gợn sóng ở điểm đó.)

— RM

1

@RM, điểm hợp lệ. Có một lý do: đó là vì các hàm mất tiêu chuẩn được sử dụng trong học máy tương ứng với bản ghi sau chứ không phải bản thân sau. Tại sao? Bởi vì họ sử dụng giảm thiểu rủi ro theo kinh nghiệm; và các hàm mất tiêu chuẩn thường có dạng trong đó là hàm mất có giải thích hợp lý là xác suất đăng nhập sau. (Tôi nghi ngờ bạn biết điều này, nhưng tôi chỉ đánh vần nó cho những khách truy cập khác.)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— DW

@RM Nếu bạn có một số chi phí bạn luôn có thể xác định lại vấn đề của mình theo . Nói cách khác, bất kể hàm chi phí của bạn là gì, nó xác định phân phối dựa trên chia cho một số hằng số chuẩn hóa mà bạn có thể bỏ qua khi sử dụng các phương thức MCMC. Thực tế bạn luôn có thể trình bày lại trong điều khoản của một số mũ là rất quan trọng đối với ví dụ mô phỏng ủ, lấy mẫu MCMC vv

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— ely

@RM, ví dụ, hãy xem xét bài viết này của Jun Liu (và có một nhận xét tương tự trong cuốn sách MCMC của Liu), trong đó trên trang 3 ở dưới cùng có ghi: "Hãy là phân phối xác suất mục tiêu đang được điều tra (có lẽ tất cả các pdf có thể được viết dưới dạng này) "(nhấn mạnh thêm). Vì vậy, theo quan điểm của Bayes trong đó phần sau được xác định bởi mô hình khả năng sẽ là hàm mất mát này, phân tích Bayes cho câu trả lời này sẽ hoàn toàn chung chung.

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— ely

Cảm ơn câu trả lời! Tôi đang cố gắng để hiểu "nó" ở đầu bài viết của bạn: chính xác những gì bạn đang tuyên bố có trực giác tốt trong khuôn khổ bayes? lý do cơ bản tại sao thêm hình phạt cho ước tính tốt? hoặc lý do lịch sử (và phi kinh tế) tại sao mọi người sử dụng các công cụ ước tính phụ gia này? (Khi tôi đang cố gắng gợi ý, tôi nghĩ câu trả lời của bạn đề cập đến lý do lịch sử hơn là lý do thống kê.)

— user795305

34

Jan và Cagdas đưa ra một lý do Bayes tốt, giải thích người thường xuyên như trước. Dưới đây là một số người không Bayes:

Nếu mục tiêu không đều của bạn là lồi và bạn thêm một bộ chỉnh thường lồi, thì tổng mục tiêu của bạn sẽ vẫn là lồi. Điều này sẽ không đúng nếu bạn nhân nó hoặc hầu hết các phương pháp kết hợp khác. Tối ưu hóa lồi là thực sự, thực sự tốt đẹp so với tối ưu hóa không lồi; nếu công thức lồi hoạt động, nó sẽ tốt hơn để làm điều đó.
Đôi khi nó dẫn đến một hình thức đóng rất đơn giản, vì wpof đề cập là trường hợp cho hồi quy sườn.
Nếu bạn nghĩ về vấn đề mà bạn "thực sự" muốn giải quyết như một vấn đề với một ràng buộc cứng thì vấn đề Lagrange của nó là vấn đề Mặc dù bạn không phải sử dụng tính đối ngẫu Lagrange, rất nhiều điều được hiểu về nó.
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
Như ogogmad đã đề cập , định lý representer áp dụng cho trường hợp hình phạt phụ gia: nếu bạn muốn tối ưu hóa trên toàn bộ không gian hạt nhân Hilbert của hàm , thì chúng ta biết rằng giải pháp tối ưu hóa trên toàn bộ không gian nằm trong một không gian con hữu hạn đơn giản cho nhiều tổn thất ; Tôi không biết nếu điều này sẽ giữ cho một bộ thường xuyên nhân (mặc dù nó có thể). Đây là nền tảng của các SVM kernel. $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
Nếu bạn đang học sâu hoặc một cái gì đó không lồi lõm: tổn thất phụ gia cho độ dốc phụ gia đơn giản. Đối với công thường xuyên đơn giản mà bạn đã cung cấp, nó trở nên phân rã trọng lượng rất đơn giản . Nhưng ngay cả đối với một trình chỉnh sửa phức tạp hơn, giả sử tổn thất của WGAN-GP việc sao lưu dễ dàng hơn để tính toán độ dốc khi chỉ phải xem xét tổng tổn thất và bộ chỉnh hóa phức tạp (xem xét mọi thứ một cách riêng biệt), thay vì phải làm quy tắc sản phẩm. $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Các tổn thất phụ gia cũng có thể tuân theo thuật toán tối ưu hóa ADMM phổ biến và các thuật toán dựa trên "phân tách" khác.

Không có quy tắc nào trong số này là các quy tắc khó và nhanh, và thực sự đôi khi một bộ chỉnh hóa nhân (hoặc một số khác) có thể hoạt động tốt hơn (như ogogmad chỉ ra ). (Trên thực tế, tôi mới gửi một bài báo về việc làm thế nào một cái gì đó bạn có thể diễn giải như một bộ chỉnh âm nhân sẽ làm tốt hơn phụ gia WGAN-GP ở trên!) Nhưng hy vọng điều này sẽ giúp giải thích tại sao các bộ chỉnh âm phụ gia là "mặc định".

— Dougal
nguồn

2

+1. Chúc may mắn với bài nộp [có lẽ là NIPS] của bạn!

— amip nói rằng Phục hồi lại

13

Bạn muốn giảm thiểu cả hai điều khoản trong hàm mục tiêu. Do đó, bạn cần tách các điều khoản. Nếu bạn nhân các thuật ngữ bạn có thể có một thuật ngữ lớn và thuật ngữ khác rất thấp. Vì vậy, bạn vẫn kết thúc với giá trị thấp của hàm mục tiêu, nhưng với kết quả không mong muốn.

Bạn có thể kết thúc với một mô hình có hầu hết các biến gần bằng 0 mà không có sức mạnh dự đoán.

Hàm mục tiêu, là hàm được tối thiểu hóa, có thể được xây dựng dưới dạng tổng của hàm chi phí và các điều khoản chính quy.

Trong trường hợp cả hai độc lập với nhau, bạn sẽ có được các giá trị được minh họa trong hình đầu tiên cho mục tiêu. Bạn thấy trong trường hợp tổng, chỉ có một mức tối thiểu tại (0, 0). Trong trường hợp sản phẩm bạn có sự mơ hồ. Bạn có toàn bộ bề mặt bằng 0 tại (x = 0 hoặc y = 0). Vì vậy, thuật toán tối ưu hóa có thể kết thúc ở bất cứ đâu tùy thuộc vào khởi tạo của bạn. Và nó không thể quyết định giải pháp nào là tốt hơn.

— Con cháu
nguồn

10

Bạn có thể thử các hoạt động nhị phân khác ( ) và xem chúng so sánh như thế nào. $\max,\min,\times$

Vấn đề với và là nếu lỗi là , thì hình phạt thông thường sẽ kết thúc bằng . Điều này cho phép mô hình để phù hợp hơn. $\min$ $\times$ $0$ $0$

Vấn đề với là cuối cùng bạn đã giảm thiểu mức độ "khó hơn" của hai hình phạt (lỗi đào tạo hoặc chính quy) nhưng không phải là hình phạt khác. $\max$

Ngược lại, là đơn giản và nó hoạt động. $+$

Bạn có thể hỏi tại sao không phải hoạt động nhị phân khác? Không có tranh luận có thể loại trừ chúng, vậy tại sao không?

— jkabrg
nguồn

8

Tôi nghĩ rằng bạn có một câu hỏi hợp lệ. Để cung cấp cho bạn một câu trả lời thích hợp, bạn sẽ phải hiểu bản chất xác suất của vấn đề.

Nói chung, vấn đề chúng tôi đang cố gắng giải quyết như sau: Đưa ra dữ liệu phân phối các giả thuyết giải thích dữ liệu này là gì. Khi chúng tôi nói giả thuyết, chúng tôi muốn nói đến một bản PDF (ít nhất là trong bối cảnh này). Và một sự phân phối các giả thuyết là một tệp PDF, tức là . $D$ $p(H | D)$

$p(H | D)$ là một phân phối trên giả thuyết cho . Nếu chúng ta có thể tìm thấy điều này thì chúng ta có thể chọn một trong số các giả thuyết này, ví dụ: giả thuyết có xác suất cao nhất hoặc chúng ta có thể chọn tính trung bình trên tất cả chúng. Một cách tiếp cận có phần dễ dàng hơn là tấn công vấn đề từ một hướng khác bằng Định lý Bayes. $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ là một trong những giả thuyết, nó còn được gọi là khả năng. là sự phân phối các giả thuyết trong vũ trụ của chúng ta về các giả thuyết trước khi quan sát dữ liệu. Sau khi chúng tôi quan sát dữ liệu, chúng tôi cập nhật niềm tin của chúng tôi. $p(H)$
$p(D)$ là trung bình của các giả thuyết trước khi chúng tôi cập nhật niềm tin của mình.

Bây giờ nếu chúng ta lấy của cả hai phương trình của Bayes, chúng ta sẽ nhận được: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

Thông thường rất khó tính toán. Điều tốt là nó không ảnh hưởng đến kết quả. Nó chỉ đơn giản là một hằng số chuẩn hóa. $p(D)$

Bây giờ, ví dụ, nếu tập hợp giả thuyết ta là một nhóm Gaussian với nơi chúng ta không biết , nhưng giả sử biết (hoặc ít nhất giả định rằng đó là hằng số) và hơn nữa, các giả thuyết được phân phối dưới dạng Gaussian với sau đó cắm mọi thứ ở trên trông giống như: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

Bây giờ nếu chúng ta giảm thiểu biểu thức này, chúng ta sẽ tìm thấy giả thuyết có xác suất cao nhất. Các hằng số không ảnh hưởng đến việc giảm thiểu. Đây là biểu hiện trong câu hỏi của bạn.

Thực tế là chúng tôi đã sử dụng Gaussian không thay đổi thực tế thuật ngữ chính quy là bổ sung. Nó phải là phụ gia (theo thuật ngữ nhật ký hoặc nhân với xác suất), không có lựa chọn nào khác. Điều gì sẽ thay đổi nếu chúng ta sử dụng các bản phân phối khác là các thành phần của phần bổ sung. Hàm chi phí / tổn thất bạn đã cung cấp là tối ưu cho một kịch bản cụ thể của Gaussian.

— Cagdas Ozgenc
nguồn

Này Cagdas, cảm ơn vì lời giải thích. Tôi không hiểu sự biến đổi của phương trình cuối cùng trên RHS. Bạn có thể chỉ ra một số tài nguyên để tôi hiểu rõ hơn về phần đó không

— Itachi

7

Sườn là một công thức rất thuận tiện. Trái ngược với các câu trả lời xác suất, câu trả lời này không đưa ra bất kỳ sự giải thích nào về ước tính mà thay vào đó giải thích tại sao sườn núi là một công thức cũ và rõ ràng.

Trong hồi quy tuyến tính, các phương trình bình thường cho $\hat{\theta} = (X^TX)^{-1} X^T y$

Nhưng, ma trận đôi khi không thể đảo ngược; một cách để điều chỉnh nó bằng cách thêm một yếu tố nhỏ để đường chéo: . $X^TX$ $X^TX + \alpha I$

Điều này đưa ra giải pháp: ; thì không giải quyết được vấn đề ban đầu mà thay vào đó là vấn đề sườn núi. $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
nguồn

3

Vui lòng chỉ định câu trả lời bạn đang đề cập đến. Thứ tự sẽ di chuyển xung quanh khi phiếu bầu tích lũy nên "ở trên" vốn đã mơ hồ.

— gung - Phục hồi Monica

1

Tôi nghĩ có một lý do trực quan hơn là tại sao chúng ta không thể nhân với thuật ngữ chính quy.

Hãy đưa chức năng hình phạt của chúng tôi vào chức năng hình phạt thông thường nhân với một thuật ngữ chính quy như bạn đề xuất.

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

Ở đây chúng tôi tạo tối thiểu toàn cầu của hàm hình phạt trong đó . Trong trường hợp này, mô hình của chúng tôi có thể tạo ra các lỗi cao giữa dự đoán và dữ liệu nhưng không thành vấn đề, nếu trọng số tham số mô hình bằng 0 thì hàm hình phạt của chúng tôi là 0 . $α‖θ‖^2_2=0$ $J(θ=0)=0$

Vì, trừ khi mô hình của chúng tôi hoàn toàn hoàn hảo, thuật ngữ không bao giờ có thể bằng 0 (xác suất tồn tại một tập hợp để làm cho mô hình của chúng tôi 'hoàn hảo' là không đáng kể đối với dữ liệu thực), thì mô hình của chúng tôi phải luôn luôn hướng đến giải pháp = 0. $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

Đây là những gì nó sẽ trở lại trừ khi nó bị mắc kẹt ở mức tối thiểu cục bộ ở đâu đó.

— James Fulton
nguồn