Hình ảnh hiển thị một lớp điển hình ở đâu đó trong mạng chuyển tiếp nguồn cấp dữ liệu:
là giá trị kích hoạt của nơ ron trong lớp .
là trọng lượng kết nối neuron trong lớp đến neuron trong lớp.
là giá trị hàm kích hoạt trước cho nơ ron trong lớp . Đôi khi điều này được gọi là "logit", khi được sử dụng với các hàm logistic.
Các phương trình chuyển tiếp thức ăn như sau:
Để đơn giản, bias được bao gồm dưới dạng kích hoạt giả 1 và được sử dụng trong các lần lặp trên .
Tôi có thể rút ra các phương trình lan truyền ngược trên mạng thần kinh chuyển tiếp nguồn cấp dữ liệu, sử dụng quy tắc chuỗi và xác định các giá trị vô hướng riêng lẻ trong mạng (thực tế tôi thường làm điều này như một bài tập trên giấy chỉ để thực hành):
Cho dưới dạng độ dốc của hàm lỗi đối với đầu ra nơ ron.
1.
2.
3.
Càng xa càng tốt. Tuy nhiên, tốt hơn là nhớ lại các phương trình này bằng cách sử dụng ma trận và vectơ để biểu diễn các phần tử. Tôi có thể làm điều đó, nhưng tôi không thể tìm ra biểu diễn "nguyên gốc" của logic tương đương ở giữa các đạo hàm. Tôi có thể tìm ra các hình thức kết thúc nên bằng cách tham khảo lại phiên bản vô hướng và kiểm tra xem các phép nhân có kích thước chính xác hay không, nhưng tôi không biết tại sao tôi nên đặt các phương trình trong các hình thức đó.
Có thực sự là một cách để thể hiện đạo hàm dựa trên độ căng của lan truyền ngược, chỉ sử dụng các phép toán vectơ và ma trận, hay đó là vấn đề "khớp" nó với đạo hàm trên?
Sử dụng các vectơ cột , , và ma trận trọng số cộng với vectơ thiên vị , sau đó các hoạt động chuyển tiếp nguồn cấp dữ liệu là:
Sau đó, nỗ lực của tôi tại phái sinh trông như thế này:
1.
2.
3.
Trong đó đại diện cho phép nhân phần tử. Tôi không bận tâm đến việc hiển thị phương trình cho sự thiên vị.
Tôi đã đặt ở đâu ??? Tôi không chắc chắn về cách chính xác để đi từ các hoạt động chuyển tiếp thức ăn và kiến thức về phương trình vi phân tuyến tính để thiết lập các hình thức chính xác của phương trình? Tôi chỉ có thể viết ra một số thuật ngữ phái sinh một phần, nhưng không biết lý do tại sao một số nên sử dụng phép nhân phần tử, phép nhân ma trận khác và tại sao thứ tự nhân phải được hiển thị, ngoài việc rõ ràng cho kết quả chính xác cuối cùng .
Tôi thậm chí không chắc chắn nếu có một đạo hàm thuần túy, hay liệu tất cả chỉ là một "véc tơ" của bộ phương trình đầu tiên. Nhưng đại số của tôi không tốt lắm, và tôi rất muốn tìm hiểu một trong hai cách. Tôi cảm thấy nó có thể giúp tôi một số công việc thấu hiểu tốt trong ví dụ: TensorFlow nếu tôi hiểu rõ hơn về các hoạt động này bằng cách suy nghĩ nhiều hơn với đại số tenor.
Xin lỗi về ký hiệu ad-hoc / sai. Bây giờ tôi hiểu rằng được viết đúng hơn nhờ câu trả lời của Ehsan. Những gì tôi thực sự muốn có một biến tham chiếu ngắn để thay thế vào các phương trình, trái ngược với các đạo hàm riêng dài dòng.