Làm thế nào linh hoạt là liên kết giữa chức năng mục tiêu và chức năng kích hoạt lớp đầu ra?

Có vẻ như tiêu chuẩn trong nhiều gói mạng thần kinh để ghép nối hàm mục tiêu được tối thiểu hóa với chức năng kích hoạt trong lớp đầu ra.

Ví dụ, đối với một lớp đầu ra tuyến tính được sử dụng để hồi quy, nó là tiêu chuẩn (và thường chỉ là sự lựa chọn) để có một hàm mục tiêu lỗi bình phương. Một cặp thông thường khác là đầu ra logistic và mất log (hoặc entropy chéo). Và một điều nữa là softmax và mất nhiều log.

Sử dụng ký hiệu, cho giá trị kích hoạt trước (tổng trọng số lần kích hoạt từ lớp trước), để kích hoạt, cho sự thật mặt đất được sử dụng cho đào tạo, cho chỉ số của nơ ron đầu ra. $z$ $a$ $y$ $i$

Kích hoạt tuyến tính đi với lỗi bình phương $a_i=z_i$ $\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2$
Kích hoạt Sigmoid đi với mục tiêu logloss / cross-entropy $a_i = \frac{1}{1+e^{-z_i}}$ $-\sum\limits_{\forall i} (y_i*log(a_i) + (1-y_i)*log(1-a_i))$
Kích hoạt Softmax đi với mục tiêu logloss đa kính $a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$ $-\sum\limits_{\forall i} (y_i*log(a_i))$

Đó là những cái tôi biết, và tôi hy vọng có nhiều cái mà tôi vẫn chưa nghe nói đến.

Có vẻ như mất nhật ký sẽ chỉ hoạt động và ổn định về số lượng khi đầu ra và mục tiêu nằm trong phạm vi [0,1]. Vì vậy, có thể không có ý nghĩa khi thử lớp đầu ra tuyến tính với hàm mục tiêu logloss. Trừ khi có một hàm logloss tổng quát hơn có thể đối phó với các giá trị của nằm ngoài phạm vi? $y$

Tuy nhiên, dường như không quá tệ để thử đầu ra sigmoid với mục tiêu lỗi bình phương. Nó phải ổn định và hội tụ ít nhất.

Tôi hiểu rằng một số thiết kế đằng sau các cặp này là nó tạo ra công thức cho - trong đó là giá trị của hàm mục tiêu - dễ dàng truyền bá ngược. Nhưng vẫn có thể tìm thấy đạo hàm đó bằng cách sử dụng các cặp khác. Ngoài ra, có nhiều hàm kích hoạt khác thường không thấy trong các lớp đầu ra, nhưng khả thi là có thể, chẳng hạn như , và ở đó không rõ chức năng mục tiêu nào có thể được áp dụng. $\frac{\delta E}{\delta z}$ $E$ tanh

Có bất kỳ tình huống nào khi thiết kế kiến trúc của một mạng thần kinh, rằng bạn sẽ hoặc nên sử dụng các cặp mục tiêu và chức năng mục tiêu đầu ra "không chuẩn"?

neural-network gradient-descent

— Neil Slater
nguồn

Nó không phải là quá nhiều chức năng kích hoạt mà bạn sử dụng mà xác định mất chức năng mà bạn nên sử dụng, mà là giải thích bạn có đầu ra là gì.

Nếu đầu ra được coi là một xác suất, thì mất log là cách để đi.

Nếu đầu ra là một giá trị chung thì có nghĩa là lỗi bình phương là cách mặc định. Vì vậy, ví dụ, nếu đầu ra của bạn là pixel tỷ lệ xám với thang màu xám được dán nhãn bởi một số từ 0 đến 1, thì có thể sử dụng hàm kích hoạt sigmoid với hàm mục tiêu lỗi bình phương trung bình.

— patapouf_ai
nguồn