Hàm chi phí chéo entropy trong mạng nơ ron


10

Tôi đang xem hàm chi phí entropy chéo được tìm thấy trong hướng dẫn này :

C=1nx[ylna+(1y)ln(1a)]

Chính xác thì chúng ta đang tổng kết những gì? Đó là, tất nhiên, trên , nhưng và không thay đổi với . Tất cả các là đầu vào của một . thậm chí được định nghĩa trong đoạn văn trên phương trình là hàm của tổng của tất cả các và 's. xyaxxaawx

Ngoài ra, được định nghĩa là số lượng đầu vào vào tế bào thần kinh cụ thể này, đúng không? Nó được gọi là "tổng số mục dữ liệu đào tạo" .n


Biên tập:

Tôi có đúng không khi nghĩ rằng

C=1nx[ylna+(1y)ln(1a)]

sẽ là hàm chi phí cho toàn bộ mạng, trong khi

C=[ylna+(1y)ln(1a)]

sẽ là chi phí cho các tế bào thần kinh cá nhân? Không nên tổng số trên mỗi nơ ron đầu ra?

Câu trả lời:


14

Đây là cách tôi thể hiện sự mất entropy chéo :

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

Ở đây, là tập hợp các ví dụ đầu vào trong tập dữ liệu huấn luyện và là bộ nhãn tương ứng cho các ví dụ đầu vào đó. Các đại diện cho đầu ra của mạng nơron đầu vào cho .X={x(1),,x(n)}Y={y(1),,y(n)}a(x)x

Mỗi là 0 hoặc 1 và kích hoạt đầu ra thường được giới hạn trong khoảng mở (0, 1) bằng cách sử dụng một sigmoid logistic . Ví dụ: đối với mạng một lớp (tương đương với hồi quy logistic), kích hoạt sẽ được cung cấp bởi trong đó là a ma trận trọng số và là một vectơ sai lệch. Đối với nhiều lớp, bạn có thể mở rộng chức năng kích hoạt thành một cái gì đó như trong đó và là ma trận trọng số và độ lệch cho lớp đầu tiên vày(i)a(x)

a(x)=11+eWxb
Wb
a(x)=11+eWz(x)bz(x)=11+eVxc
Vcz(x) là sự kích hoạt của lớp ẩn trong mạng.

Tôi đã sử dụng siêu ký tự (i) để biểu thị các ví dụ vì tôi thấy nó khá hiệu quả trong khóa học máy của Andrew Ng; đôi khi mọi người thể hiện các ví dụ dưới dạng cột hoặc hàng trong một ma trận, nhưng ý tưởng vẫn giống nhau.


Cảm ơn! Vì vậy, điều này sẽ cung cấp cho chúng tôi một số duy nhất cho lỗi của chúng tôi cho toàn bộ mạng, trên tất cả các mẫu của chúng tôi. Để truyền trở lại, tôi cần tìm đạo hàm riêng của hàm này, viết ma trận trọng số trong lớp cuối cùng. Làm thế nào tôi có thể làm điều đó?
Adam12344

Làm backprop là một lon giun hoàn toàn riêng biệt! Trang bạn liên kết đến có mô tả về các dẫn xuất điện toán, v.v. và có nhiều câu hỏi về backprop trên stackoverflow và trang web này. Hãy thử nhìn xung quanh một chút và sau đó đăng một câu hỏi riêng biệt về backprop.
lmjohns3

Điều này có thể hữu ích cho bạn trong việc hiểu backprop, nó đi qua chỗ dựa phía sau với mạng lưới thần kinh bốn lớp với sự mất entropy chéo trong chi tiết đẫm máu :) cooksashimi.wordpress.com/2017/05/06/ lãnh
YellowP sâu

5

Chính xác thì chúng ta đang tổng kết những gì?

Hướng dẫn thực sự khá rõ ràng:

... là tổng số mục của dữ liệu đào tạo, tổng số trên tất cả các đầu vào đào tạo ...n

Hàm chi phí nơ-ron đơn ban đầu được đưa ra trong hướng dẫn (Eqn. 57) cũng có một chỉ số dưới được cho là gợi ý về điều này. Đối với trường hợp nơ-ron đơn lẻ, không có gì khác để tổng hợp ngoài các ví dụ đào tạo, vì chúng tôi đã tổng hợp tất cả các trọng số đầu vào khi tính toán :xΣa

a=jwjxj.

Sau đó, trong cùng một hướng dẫn, Nielsen đưa ra biểu thức cho hàm chi phí cho mạng nhiều nơ-ron đa lớp (Eqn. 63):

C=1nxj[yjlnajL+(1yj)ln(1ajL)].

Trong trường hợp này, tổng chạy qua cả các ví dụ đào tạo ( 's) và các nơ-ron riêng lẻ trong lớp đầu ra ( ' s).jxj


Cảm ơn về cái nhìn sâu sắc, một câu hỏi: cái sau bạn xác định không phải là entropy chéo phân loại, phải không?
Tommaso Guerrini

Ông cũng nói trong hướng dẫn của mình rằng "đôi khi y có thể lấy các giá trị trung gian trong khoảng từ 0 đến 1" nhưng chức năng mà ông đưa ra là tất cả trên y và không có đầu vào kích hoạt. Làm thế nào chúng ta có thể thực hiện các giá trị trung gian trong hàm st?
Feras

Trong hướng dẫn của Nielsen, hiển thị một tri giác một lớp, a = \ sigma (\ sum_ {j} w_j x_j) vì bạn có chức năng kích hoạt sigmoid cho lớp đầu ra của mình, không phải là a = \ sum_ {j} w_j x_j
ARAT
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.