Có vẻ như tiêu chuẩn trong nhiều gói mạng thần kinh để ghép nối hàm mục tiêu được tối thiểu hóa với chức năng kích hoạt trong lớp đầu ra.
Ví dụ, đối với một lớp đầu ra tuyến tính được sử dụng để hồi quy, nó là tiêu chuẩn (và thường chỉ là sự lựa chọn) để có một hàm mục tiêu lỗi bình phương. Một cặp thông thường khác là đầu ra logistic và mất log (hoặc entropy chéo). Và một điều nữa là softmax và mất nhiều log.
Sử dụng ký hiệu, cho giá trị kích hoạt trước (tổng trọng số lần kích hoạt từ lớp trước), để kích hoạt, cho sự thật mặt đất được sử dụng cho đào tạo, cho chỉ số của nơ ron đầu ra.a y i
Kích hoạt tuyến tính đi với lỗi bình phương1
Kích hoạt Sigmoid đi với mục tiêu logloss / cross-entropy -∑∀i(yi∗log(ai)+(1-yi)∗log(1-ai))
Kích hoạt Softmax đi với mục tiêu logloss đa kính
Đó là những cái tôi biết, và tôi hy vọng có nhiều cái mà tôi vẫn chưa nghe nói đến.
Có vẻ như mất nhật ký sẽ chỉ hoạt động và ổn định về số lượng khi đầu ra và mục tiêu nằm trong phạm vi [0,1]. Vì vậy, có thể không có ý nghĩa khi thử lớp đầu ra tuyến tính với hàm mục tiêu logloss. Trừ khi có một hàm logloss tổng quát hơn có thể đối phó với các giá trị của nằm ngoài phạm vi?
Tuy nhiên, dường như không quá tệ để thử đầu ra sigmoid với mục tiêu lỗi bình phương. Nó phải ổn định và hội tụ ít nhất.
Tôi hiểu rằng một số thiết kế đằng sau các cặp này là nó tạo ra công thức cho - trong đó là giá trị của hàm mục tiêu - dễ dàng truyền bá ngược. Nhưng vẫn có thể tìm thấy đạo hàm đó bằng cách sử dụng các cặp khác. Ngoài ra, có nhiều hàm kích hoạt khác thường không thấy trong các lớp đầu ra, nhưng khả thi là có thể, chẳng hạn như , và ở đó không rõ chức năng mục tiêu nào có thể được áp dụng.tanh
Có bất kỳ tình huống nào khi thiết kế kiến trúc của một mạng thần kinh, rằng bạn sẽ hoặc nên sử dụng các cặp mục tiêu và chức năng mục tiêu đầu ra "không chuẩn"?