Tôi có CNN sau:

Tôi bắt đầu với một hình ảnh đầu vào có kích thước 5x5
Sau đó, tôi áp dụng tích chập bằng cách sử dụng kernel 2x2 và stride = 1, tạo ra bản đồ tính năng có kích thước 4 x 4.
Sau đó, tôi áp dụng nhóm tối đa 2x2 với stride = 2, điều này làm giảm bản đồ tính năng xuống kích thước 2x2.
Sau đó, tôi áp dụng sigmoid logistic.
Sau đó, một lớp kết nối đầy đủ với 2 tế bào thần kinh.
Và một lớp đầu ra.

Để đơn giản, giả sử tôi đã hoàn thành việc chuyển tiếp và tính H1 = 0,25 và H2 = -0,15

Vì vậy, sau khi vượt qua hoàn thành và một phần hoàn thành vượt qua, mạng của tôi trông như thế này:

Sau đó, tôi tính toán deltas cho lớp phi tuyến tính (logistic sigmoid):

\begin{aligned} δ_{11} = = (0,25 * 0,61 + - 0,15 * 0,02) * 0,58 * (1 - 0,58) = = 0,0364182 \\ δ_{12} = = (0,25 * 0,82 + - 0,15 * - 0,50) * 0,57 * (1 - 0,57) = = 0,068628 \\ δ_{21} = = (0,25 * 0,96 + - 0,15 * 0,23) * 0,65 * (1 - 0,65) = = 0,04675125 \\ δ_{22} = = (0,25 * - 1,00 + - 0,15 * 0,17) * 0,55 * (1 - 0,55) = = - 0,06818625 \end{aligned}

$\begin{align} &\delta_{11}=(0.25 * 0.61 + -0.15 * 0.02) * 0.58 * (1 - 0.58) = 0.0364182\\ &\delta_{12}=(0.25 * 0.82 + -0.15 * -0.50) * 0.57 * (1 - 0.57) = 0.068628\\ &\delta_{21}=(0.25 * 0.96 + -0.15 * 0.23) * 0.65 * (1 - 0.65) = 0.04675125\\ &\delta_{22}=(0.25 * -1.00 + -0.15 * 0.17) * 0.55 * (1 - 0.55) = -0.06818625\\ \end{align}$

Sau đó, tôi tuyên truyền deltas đến lớp 4x4 và đặt tất cả các giá trị được lọc ra bằng cách gộp tối đa thành 0 và ánh xạ gradient giống như sau:

Làm cách nào để cập nhật trọng lượng kernel từ đó? Và nếu mạng của tôi có một lớp chập khác trước 5x5, tôi nên sử dụng giá trị nào để cập nhật trọng số kernel? Và tổng thể, tính toán của tôi có đúng không?

— koryakinp
nguồn

Hãy làm rõ những gì làm bạn bối rối. Bạn đã biết cách thực hiện đạo hàm của cực đại (mọi thứ đều bằng 0 trừ trường hợp giá trị là tối đa). Vì vậy, hãy quên tổng hợp tối đa. Là vấn đề của bạn trong tích chập? Mỗi bản vá chập sẽ có các dẫn xuất riêng, đó là một quá trình tính toán chậm.

— Ricardo Cruz

Nguồn tốt nhất là cuốn sách học sâu - phải thừa nhận là không dễ đọc :). Phép chập đầu tiên giống như chia hình ảnh thành các miếng vá và sau đó áp dụng mạng thần kinh bình thường, trong đó mỗi pixel được kết nối với số lượng "bộ lọc" bạn có sử dụng trọng số.

— Ricardo Cruz

Là câu hỏi của bạn về bản chất làm thế nào trọng lượng hạt nhân được điều chỉnh bằng cách sử dụng backpropagation?

— JahKnows

@JahKnows ..và cách tính độ dốc cho lớp chập, lấy ví dụ trong câu hỏi.

— koryakinp

Có một chức năng kích hoạt liên quan đến các lớp chập của bạn?

— JahKnows

Một tổ hợp sử dụng một nguyên tắc chia sẻ trọng lượng sẽ làm phức tạp đáng kể toán học nhưng chúng ta hãy cố gắng vượt qua cỏ dại. Tôi đang rút ra hầu hết lời giải thích của tôi từ nguồn này .

Chuyển tiếp qua

Khi bạn quan sát đường chuyền phía trước của lớp chập có thể được biểu thị bằng

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

trong trường hợp của chúng tôi $k_1$ và $k_2$ là kích thước của hạt nhân, trong trường hợp của chúng tôi $k_1=k_2=2$ . Vì vậy, điều này nói cho đầu ra $x_{0,0} = 0.25$ như bạn đã tìm thấy. $m$ và $n$ lặp trên các kích thước của kernel.

Lan truyền ngược

Giả sử bạn đang sử dụng lỗi bình phương trung bình (MSE) được xác định là

$E = \frac{1}{2}\sum_p (t_p - y_p)^2$ ,

chúng tôi muốn xác định

$\frac{\partial E}{\partial w^l_{m', n'}}$ $m'$ $n'$ $w^1_{0,0} = -0.13$ $H$ $K$

$(H-k_1+1)$ $(W-k_2+1)$

$4$ $4$ $w^1_{0,0} = -0.13$ $x^1_{0,0} = 0.25$

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \frac{\partial E}{\partial x^l_{i, j}} \frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}}$

Điều này lặp đi lặp lại trên toàn bộ không gian đầu ra, xác định lỗi mà đầu ra đang đóng góp và sau đó xác định hệ số đóng góp của trọng lượng hạt nhân đối với đầu ra đó.

Chúng ta hãy gọi sự đóng góp cho lỗi từ delta không gian đầu ra để đơn giản và để theo dõi lỗi backpropagated,

$\frac{\partial E}{\partial x^l_{i, j}} = \delta^l_{i,j}$

Sự đóng góp từ các trọng số

Sự tích chập được định nghĩa là

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

do đó,

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = \frac{\partial}{\partial w^l_{m', n'}} (\sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l)$

$m=m'$ $n=n'$

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = o^{l-1}_{i+m', j+n'}$

Sau đó trở lại trong thời hạn lỗi của chúng tôi

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \delta_{i,j}^l o^{l-1}_{i+m', j+n'}$

Độ dốc dốc ngẫu nhiên

$w^{(t+1)} = w^{(t)} - \eta \frac{\partial E}{\partial w^l_{m', n'}}$

Hãy tính toán một vài trong số chúng

import numpy as np
from scipy import signal
o = np.array([(0.51, 0.9, 0.88, 0.84, 0.05), 
              (0.4, 0.62, 0.22, 0.59, 0.1), 
              (0.11, 0.2, 0.74, 0.33, 0.14), 
              (0.47, 0.01, 0.85, 0.7, 0.09),
              (0.76, 0.19, 0.72, 0.17, 0.57)])
d = np.array([(0, 0, 0.0686, 0), 
              (0, 0.0364, 0, 0), 
              (0, 0.0467, 0, 0), 
              (0, 0, 0, -0.0681)])

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

mảng ([0,044606, 0,094061], [0,011262, 0,068288]])

$\frac{\partial E}{\partial w}$

Xin vui lòng cho tôi biết nếu có lỗi trong đạo hàm.

Cập nhật: Sửa mã

— JahKows
nguồn

\frac{\partial E}{\partial w_{m^{'}, n^{'}}^{l}}

$\frac{\partial E}{\partial w^l_{m', n'}}$

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

— Sun Bee

Tôi muốn đề nghị xem lại câu trả lời này. Cụ thể, mã được cung cấp trong python có thể được kiểm tra

— Duloren

tuyên truyền trở lại trong CNN

Chuyển tiếp qua

Lan truyền ngược

Sự đóng góp từ các trọng số

Độ dốc dốc ngẫu nhiên