Danh sách các hàm chi phí được sử dụng trong các mạng thần kinh, bên cạnh các ứng dụng

133

Các hàm chi phí phổ biến được sử dụng để đánh giá hiệu suất của các mạng thần kinh là gì?

Chi tiết

(vui lòng bỏ qua phần còn lại của câu hỏi này, ý định của tôi ở đây chỉ đơn giản là cung cấp làm rõ về ký hiệu mà câu trả lời có thể sử dụng để giúp chúng dễ hiểu hơn đối với người đọc nói chung)

Tôi nghĩ sẽ hữu ích khi có một danh sách các hàm chi phí phổ biến, bên cạnh một vài cách mà chúng đã được sử dụng trong thực tế. Vì vậy, nếu những người khác quan tâm đến điều này, tôi nghĩ rằng wiki cộng đồng có lẽ là cách tiếp cận tốt nhất hoặc chúng ta có thể gỡ nó xuống nếu nó lạc đề.

Ký hiệu

Vì vậy, để bắt đầu, tôi muốn xác định một ký hiệu mà tất cả chúng ta sử dụng khi mô tả những điều này, vì vậy các câu trả lời rất phù hợp với nhau.

Ký hiệu này là từ cuốn sách của Neilsen .

Mạng thần kinh Feedforward là nhiều lớp tế bào thần kinh được kết nối với nhau. Sau đó, nó nhận một đầu vào, đầu vào đó "nhỏ giọt" qua mạng và sau đó mạng thần kinh trả về một vectơ đầu ra.

Chính thức hơn, gọi kích hoạt (còn gọi là đầu ra) của nơ ron trong lớp , trong đó là phần tử trong vectơ đầu vào. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Sau đó, chúng ta có thể liên kết đầu vào của lớp tiếp theo với trước đó thông qua mối quan hệ sau:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

Ở đâu

$\sigma$ là chức năng kích hoạt,

$w^i_{jk}$ là trọng lượng từ tế bào thần kinh trong lớp đến tế bào thần kinh trong lớp , $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

$b^i_j$ là sai lệch của nơron trong lớp và $j^{th}$ $i^{th}$

$a^i_j$ đại diện cho giá trị kích hoạt của nơron trong lớp . $j^{th}$ $i^th$

Đôi khi chúng ta viết để thể hiện , nói cách khác, giá trị kích hoạt của nơ ron trước khi áp dụng chức năng kích hoạt . $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

nhập mô tả hình ảnh ở đây

Để ký hiệu ngắn gọn hơn chúng ta có thể viết

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Để sử dụng công thức này để tính toán đầu ra của mạng feedforward cho một số đầu vào , hãy đặt , sau đó tính , , ..., , trong đó m là số lớp. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Giới thiệu

Hàm chi phí là thước đo "mức độ tốt" của mạng lưới thần kinh đối với mẫu đào tạo được đưa ra và sản lượng dự kiến. Nó cũng có thể phụ thuộc vào các biến như trọng số và độ lệch.

Hàm chi phí là một giá trị duy nhất, không phải là một vectơ, vì nó đánh giá mức độ tốt của mạng lưới thần kinh.

Cụ thể, một hàm chi phí có dạng

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

Trong đó là trọng số của mạng nơ-ron của chúng tôi, là độ lệch của mạng nơ-ron của chúng tôi, là đầu vào của một mẫu đào tạo duy nhất và là đầu ra mong muốn của mẫu đào tạo đó. Lưu ý chức năng này cũng có khả năng phụ thuộc vào và cho bất kỳ nơron trong lớp , bởi vì các giá trị này phụ thuộc vào , và . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

Trong backpropagation, hàm chi phí được sử dụng để tính toán lỗi của lớp đầu ra của chúng tôi, , thông qua $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$ .

Mà cũng có thể được viết dưới dạng vector thông qua

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$ .

Chúng tôi sẽ cung cấp độ dốc của các hàm chi phí theo phương trình thứ hai, nhưng nếu ai đó muốn tự chứng minh các kết quả này, thì nên sử dụng phương trình thứ nhất vì nó dễ làm việc hơn.

Yêu cầu chức năng chi phí

Để được sử dụng trong backpropagation, hàm chi phí phải đáp ứng hai thuộc tính:

1: Hàm chi phí phải có thể được viết ở mức trung bình $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

hàm chi phí cho các ví dụ đào tạo cá nhân, . $C_x$ $x$

Điều này là để nó cho phép chúng ta tính toán độ dốc (liên quan đến trọng số và độ lệch) cho một ví dụ đào tạo duy nhất và chạy Gradient Descent.

2: Hàm chi phí không phải phụ thuộc vào bất kỳ giá trị kích hoạt của một mạng lưới thần kinh bên cạnh những kết quả giá trị . $C$ $a^L$

Về mặt kỹ thuật, hàm chi phí có thể phụ thuộc vào bất kỳ hoặc . Chúng tôi chỉ thực hiện hạn chế này để chúng tôi có thể backpropagte, bởi vì phương trình tìm độ dốc của lớp cuối cùng là phương trình duy nhất phụ thuộc vào hàm chi phí (phần còn lại phụ thuộc vào lớp tiếp theo). Nếu hàm chi phí phụ thuộc vào các lớp kích hoạt khác ngoài lớp đầu ra, việc sao lưu ngược sẽ không hợp lệ vì ý tưởng "lừa ngược" không còn hoạt động. $a^i_j$ $z^i_j$

Ngoài ra, các chức năng kích hoạt được yêu cầu phải có đầu ra cho tất cả . Do đó, các hàm chi phí này chỉ cần được xác định trong phạm vi đó (ví dụ: là hợp lệ vì chúng tôi được đảm bảo ). $0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
nguồn

Đây là trang web Hỏi & Đáp và định dạng của bài đăng này không thực sự phù hợp với điều đó. Có lẽ bạn nên đặt phần lớn nội dung vào câu trả lời và chỉ để lại câu hỏi (ví dụ: Danh sách các hàm chi phí được sử dụng trong NN là gì?).

— Roger Fan

Được rồi, tốt hơn không? Tôi nghĩ rằng các định nghĩa là quan trọng nếu không các câu trả lời trở nên mơ hồ cho những người không quen thuộc với thuật ngữ mà nhà văn sử dụng.

— Phylliida

Nhưng nếu một câu trả lời khác nhau sử dụng ký hiệu hoặc thuật ngữ khác nhau thì sao?

— Roger Fan

Ý tưởng là mọi người đều sử dụng cùng một thuật ngữ ở đây và nếu nó khác nhau, chúng tôi chuyển đổi nó thành cái này, vì vậy các câu trả lời "phù hợp" với nhau. Nhưng tôi cho rằng tôi có thể loại bỏ mảnh đó nếu bạn không nghĩ nó hữu ích.

— Phylliida

Tôi chỉ nghĩ rằng chi tiết câu hỏi đi vào không thực sự cần thiết hoặc có liên quan. Có vẻ hơi quá mức và hạn chế, nhưng đó chỉ là tôi.

— Roger Fan

Câu trả lời:

Đây là những người tôi hiểu cho đến nay. Hầu hết trong số này hoạt động tốt nhất khi được đưa ra các giá trị từ 0 đến 1.

Chi phí bậc hai

Còn được gọi là lỗi bình phương trung bình , khả năng tối đa và lỗi bình phương tổng , điều này được định nghĩa là:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Chi phí entropy chéo

Còn được gọi là khả năng đăng nhập tiêu cực Bernoulli và Entropy nhị phân

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Chi phí theo cấp số nhân

Điều này đòi hỏi phải chọn một số tham số mà bạn nghĩ sẽ cung cấp cho bạn hành vi bạn muốn. Thông thường, bạn sẽ chỉ cần chơi với điều này cho đến khi mọi thứ hoạt động tốt. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

trong đó chỉ đơn giản là tốc ký cho . $\text{exp}(x)$ $e^x$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

Tôi có thể viết lại , nhưng điều đó có vẻ dư thừa. Điểm là độ dốc tính toán một vectơ và sau đó nhân nó với . $C_{EXP}$ $C_{EXP}$

Khoảng cách Hellinger

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

Bạn có thể tìm hiểu thêm về điều này ở đây . Điều này cần phải có giá trị dương và giá trị lý tưởng trong khoảng từ đến . Điều này cũng đúng với các phân kỳ sau. $0$ $1$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Phân kỳ KullbackTHER Leibler

Còn được gọi là thông tin phân kỳ , thông tin Gain , entropy tương đối , KLIC , hoặc KL phân kỳ (Xem ở đây ).

Phân kỳ của KullbackTHER Leibler thường được ký hiệu là ,

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

nơi là một biện pháp của các thông tin bị mất khi được sử dụng để ước tính . Do đó, chúng tôi muốn đặt và , vì chúng tôi muốn đo lượng thông tin bị mất khi chúng tôi sử dụng để ước tính . Điều này cho chúng ta $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Sự phân kỳ khác ở đây sử dụng ý tưởng này cùng thiết và . $P=E^i$ $Q=a^L$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Tổng quát phân kỳ Kullback Rock Leibler

Từ đây .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Khoảng cách Saito Itito Saito

Cũng từ đây .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Độ dốc của hàm chi phí này liên quan đến đầu ra của mạng nơ ron và một số mẫu là: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Trong đó . Nói cách khác, là chỉ đơn giản bằng bình phương mỗi phần tử của . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
nguồn

Cảm ơn bạn đã chia sẻ, bạn cũng có thể xem xét những điều sau: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael

bạn có một sai lầm nhỏ trong mẫu số của đạo hàm cross-entropy, nó phải là a*(1-a)khônga*(1+a)

— Amro

Cũng thật tuyệt khi hiển thị chức năng mất pinball để giảm thiểu số lượng lỗi thay vì lỗi trung bình. Rất được sử dụng trong các hệ thống hỗ trợ quyết định.

— Ricardo Cruz

Tôi có thể xem biểu đồ cho những thứ này ở đâu?

— coiso

Liên quan đến Hàm chi phí bậc hai, bạn cần lưu ý rằng "lỗi bình phương trung bình" "khả năng tối đa" "lỗi bình phương tổng". Các tác giả có thể sử dụng tên (không chính xác) thay thế cho nhau, nhưng chúng không giống nhau.

\neq

$\neq$

\neq

$\neq$

— Jon

Không có danh tiếng để bình luận, nhưng có những lỗi về dấu hiệu trong 3 độ dốc cuối cùng.

Trong phân kỳ KL, này lỗi cùng dấu hiệu xuất hiện trong phân kỳ KL tổng quát.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

Trong khoảng cách Itakura-Saito,

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— thẳng thắn
nguồn