Giả sử chúng ta có biểu thức z=x1x2+sin(x1) và muốn tìm đạo hàm dzdx1 vàdzdx2 . AD chế độ đảo ngược chia nhiệm vụ này thành 2 phần, cụ thể là chuyển tiếp và đảo ngược.
Chuyển tiếp qua
Đầu tiên, chúng ta phân tách biểu thức phức tạp của chúng ta thành một tập hợp các biểu thức nguyên thủy, tức là các biểu thức bao gồm nhiều nhất là một hàm gọi. Lưu ý rằng tôi cũng đổi tên các biến đầu vào và đầu ra để thống nhất, mặc dù không cần thiết:
w1=x1
w2=x2
w3=w1w2
w4=sin(w1)
w5=w3+w4
z=w5
Ưu điểm của biểu diễn này là các quy tắc phân biệt cho từng biểu thức riêng biệt đã được biết đến. Ví dụ, chúng ta biết rằng đạo hàm của sin là cos , và do đó dw4dw1=cos(w1) . Chúng tôi sẽ sử dụng thực tế này trong vượt qua dưới đây.
Về cơ bản, chuyển tiếp bao gồm đánh giá từng biểu thức này và lưu kết quả. Giả sử, đầu vào của chúng tôi là: x1=2 và x2=3 . Sau đó chúng tôi có:
w1=x1=2
w2=x2=3
w3=w1w2=6
w4=sin(w1) =0.9
w5=w3+w4=6.9
z=w5=6.9
Đảo ngược
Đây là sự khởi đầu kỳ diệu, và nó bắt đầu với quy tắc chuỗi . Ở dạng cơ bản, quy tắc chuỗi nói rằng nếu bạn có biến t(u(v)) phụ thuộc vào u , đến lượt nó, phụ thuộc vào v , thì:
dtdv=dtdududv
hoặc, nếu t phụ thuộc vào v thông qua một số đường dẫn / biến ui , ví dụ:
u1=f(v)
u2=g(v)
t=h(u1,u2)
sau đó (xem bằng chứng ở đây ):
dtdv=∑idtduiduidv
Về mặt biểu đồ, nếu chúng ta có một nút cuối cùng z và các nút đầu vào wi và đường dẫn từ z đến wi đi qua các nút trung gian wp (tức là z=g(wp) trong đó wp=f(wi) ), chúng ta có thể tìm đạo hàm dzdwi như
dzdwi=∑p∈parents(i)dzdwpdwpdwi
Nói cách khác, để tính đạo hàm của biến đầu ra z wrt bất kỳ biến trung gian hoặc biến đầu vào wi , chúng ta chỉ cần biết đạo hàm của cha mẹ của nó và công thức để tính đạo hàm của biểu thức nguyên thủy wp=f(wi) .
Đảo ngược bắt đầu ở cuối (tức là dzdz) and propagates backward to all dependencies. Here we have (expression for "seed"):
dzdz=1
That may be read as "change in z results in exactly the same change in z", which is quite obvious.
Then we know that z=w5 and so:
dzdw5=1
w5 linearly depends on w3 and w4, so dw5dw3=1dw5dw4=1 . Sử dụng quy tắc chuỗi chúng tôi tìm thấy:
dzdw3=dzdw5dw5dw3=1×1=1
dzdw4=dzdw5dw5dw4=1×1=1
From definition w3=w1w2 and rules of partial derivatives, we find that dw3dw2=w1. Thus:
dzdw2=dzdw3dw3dw2=1×w1=w1
Which, as we already know from forward pass, is:
dzdw2=w1=2
Finally, w1 contributes to z via w3 and w4. Once again, from the rules of partial derivatives we know that dw3dw1=w2 and dw4dw1=cos(w1). Thus:
dzdw1=dzdw3dw3dw1+dzdw4dw4dw1=w2+cos(w1)
And again, given known inputs, we can calculate it:
dzdw1=w2+cos(w1)=3+cos(2) =2.58
Since w1 and w2 are just aliases for x1 and x2, we get our answer:
dzdx1=2.58
dzdx2=2
And that's it!
This description concerns only scalar inputs, i.e. numbers, but in fact it can also be applied to multidimensional arrays such as vectors and matrices. Two things that one should keep in mind when differentiating expressions with such objects:
- Derivatives may have much higher dimensionality than inputs or output, e.g. derivative of vector w.r.t. vector is a matrix and derivative of matrix w.r.t. matrix is a 4-dimensional array (sometimes referred to as a tensor). In many cases such derivatives are very sparse.
- Each component in output array is an independent function of 1 or more components of input array(s). E.g. if y=f(x) and both x and y are vectors, yi never depends on yj, but only on subset of xk. In particular, this means that finding derivative dyidxj boils down to tracking how yi depends on xj.
The power of automatic differentiation is that it can deal with complicated structures from programming languages like conditions and loops. However, if all you need is algebraic expressions and you have good enough framework to work with symbolic representations, it's possible to construct fully symbolic expressions. In fact, in this example we could produce expression dzdw1=w2+cos(w1)=x2+cos(x1) and calculate this derivative for whatever inputs we want.