Điều gì biện minh cho tính toán này của đạo hàm của hàm ma trận?


10

Trong khóa học máy của Andrew Ng, anh sử dụng công thức này:

Atr(ABATC)=CAB+CTABT

và anh ta làm một bằng chứng nhanh chóng được hiển thị dưới đây:

Atr(ABATC)=Atr(f(A)ATC)=tr(f()ATC)+tr(f(A)TC)=(ATC)Tf()+(Ttr(f(A)TC)T=CTABT+(Ttr(T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB

Bằng chứng có vẻ rất dày đặc mà không có bất kỳ bình luận nào và tôi gặp khó khăn trong việc hiểu nó. Chính xác những gì đã xảy ra từ bình đẳng thứ hai đến thứ ba?


Anh ta phải đưa ra các giả định đặc biệt về kích thước của , BC , vì nếu không thì công thức này nói chung không có ý nghĩa gì. Trên tay trái bên A phải là một i × j ma trận, B một j × j ma trận, và C một i × m ma trận cho số nguyên tùy ý không âm i , j , m . Nhưng sau đó, các sản phẩm bên phải sẽ không được xác định trừ khi i = m . ABCAi×jBj×jCi×mi,j,mi=m
whuber

@whuber tôi thấy. Với giả định, tôi vẫn không hiểu làm thế nào quá trình chuyển đổi xảy ra từ thứ hai đến dòng thứ ba nơi ông giới thiệu .
MoneyBall

Giữa hai và dòng thứ ba anh ấy là để cho . Giữa dòng thứ hai và thứ ba, ông đã sử dụng quy tắc sản phẩm. Sau đó, anh ta sử dụng quy tắc chuỗi để thoát khỏi f ( ) . f(A)=ABf()
Brian Borchers

Câu trả lời:


14

Có một sự lạm dụng tinh vi nhưng nặng nề của ký hiệu làm cho nhiều bước khó hiểu. Chúng ta hãy giải quyết vấn đề này bằng cách quay lại các định nghĩa về nhân ma trận, hoán vị, dấu vết và dẫn xuất. Đối với những người muốn bỏ qua các giải thích, chỉ cần chuyển đến phần cuối cùng "Kết hợp tất cả lại" để xem một cuộc biểu tình khắt khe và đơn giản như thế nào.


Ký hiệu và khái niệm

Kích thước

Để biểu thức có ý nghĩa khi A là ma trận m × n , B phải là ma trận (vuông) n × nC phải là ma trận m × p , trong đó sản phẩm là ma trận m × p . Để lấy dấu vết (mà là tổng hợp của các yếu tố đường chéo, Tr ( X ) = Σ i X i i ), sau đó p = m , làm cho CABACAm×nBn×nCm×pm×pTr(X)=iXiip=mC một ma trận vuông.

Các dẫn xuất

Ký hiệu " " xuất hiện để chỉ đạo hàm của một biểu thức đối với với Một . Thông thường, sự khác biệt là một hoạt động thực hiện trên chức năng f : R NR M . Đạo hàm tại một điểm x R N là một biến đổi tuyến tính D f ( x ) : R NR M . Khi chọn các cơ sở cho các không gian vectơ này, một phép biến đổi như vậy có thể được biểu diễn dưới dạng ma trận M × N. Đó không phải là trường hợp tại đây!AAf:RNRMxRNDf(x):RNRMM×N

Ma trận như vectơ

Thay vào đó, đang được coi là một phần tử của R m n : các hệ số của nó đang không được kiểm soát (thường là theo từng hàng hoặc từng cột theo cột) thành một vectơ có độ dài N = m n . Chức năng f ( A ) = Tr ( A B A ' C ) có giá trị thực, đâu M = 1 . Do đó, D f ( x ) phải là ma trận 1 × m n : đó là một vectơ hàng đại diện cho một dạng tuyến tính trênARmnN=mnf(A)=Tr(ABAC)M=1Df(x)1×mn . Tuy nhiên, các tính toán trong câu hỏi sử dụng mộtcáchkhácđể biểu diễn các dạng tuyến tính: các hệ số của chúng được cuộn lại thànhma trậnm×n.Rmnm×n

Dấu vết dưới dạng tuyến tính

Hãy là một hằng số m × n ma trận. Sau đó, theo định nghĩa của dấu vết và nhân ma trận,ωm×n

Tr(Aω)=i=1m(Aω)ii=i=1m(j=1nAij(ω)ji)=i,jωijAij

Điều này thể hiện sự kết hợp tuyến tính có thể nói chung hầu hết các hệ số : ω là một ma trận của hình dạng giống như một và hệ số của nó trong hàng i và cột j là hệ số của A i j trong sự kết hợp tuyến tính. Bởi vì ω i j Một i j = A i j ω i j , vai trò của ωA có thể chuyển, đưa ra các biểu thức tương đươngAωAijAijωijAij=AijωijωA

(1)i,jωijAij=Tr(Aω)=Tr(ωA).

ωATr(Aω)ATr(ωA)m×nm×nRnRm


Tính toán một công cụ phái sinh

Định nghĩa

fxL

f(x+h)f(x)=Lh+o(|h|)

hRNf(x+h)f(x)Lhhh|h|2

Tính toán

h

(2)f(A+h)f(A)=Tr((A+h)B(A+h)C)Tr(ABAC)=Tr(hBAC)+Tr(ABhC)+o(|h|).

L=Df(A)(1)ω=BACTr(XhC)X=AB

(3)Tr(XhC)=i=1mj=1nk=1mXijhkjCki=i,j,khkj(CkiXij)=Tr((CX)h).

X=AB(2)

f(A+h)f(A)=Tr(hBAC)+Tr(CABh)+o(|h|).

fA

Df(A)=(BAC)+CAB=CAB+CAB,
ω(1)

Để tất cả chúng cùng nhau

Ở đây, sau đó, là một giải pháp hoàn chỉnh.

Am×nBn×nCm×mf(A)=Tr(ABAC)hm×n(3)

f(A+h)f(A)=Tr(hBAC)+Tr(ABhC)+o(|h|)=Tr(h(CAB)+(CAB)h)+o(|h|),
f
CAB+CAB.

Bởi vì việc này chỉ mất khoảng một nửa công việc và chỉ liên quan đến các thao tác cơ bản nhất của ma trận và dấu vết (nhân và hoán vị), nên nó được coi là một minh chứng đơn giản hơn - và dễ thấy hơn - cho kết quả. Nếu bạn thực sự muốn hiểu các bước riêng lẻ trong bản trình diễn ban đầu, bạn có thể thấy hiệu quả khi so sánh chúng với các tính toán được hiển thị ở đây.


1
tr(ABC)=tr(CAB)

1
(1)Mat(m,n)m×nf:Mat(m,n)RAωDf(A)X:→Tr(Xω)

2
@Amoeba Điều đó hoàn toàn chính xác - nó có nghĩa là những lời khẳng định trong dòng đầu tiên của câu trả lời này. Đó là lý do tại sao tôi viết "theo nghĩa này " và, sau đó trong phần tóm tắt, đã sử dụng cụm từ "được xác định bởi" thay vì "bằng". Tôi sẽ không phủ nhận rằng lời giải thích đã được thử thách; Tôi sẽ suy nghĩ về cách làm rõ nó và tôi đánh giá cao tất cả các ý kiến ​​và đề xuất của bạn.
whuber

1
@ user10324 Hầu hết những gì tôi đăng trên trang web này là công thức của riêng tôi - Tôi hiếm khi tham khảo các nguồn (và tôi ghi lại chúng khi tôi làm). Những bài viết này là chưng cất từ ​​việc đọc nhiều sách và giấy tờ. Một số trong những cuốn sách hay nhất không phải là những cuốn sách hoàn toàn nghiêm ngặt về mặt toán học, nhưng đã giải thích rất hay và minh họa những ý tưởng cơ bản. Một vài thứ đầu tiên xuất hiện trong đầu - theo thứ tự tinh tế - là Freedman, Pisani, & Purves, Statistics (bất kỳ phiên bản nào); Jack Kiefer, Giới thiệu về suy luận thống kê ; và Steven Shreve, Tính toán ngẫu nhiên cho Tài chính II .
whuber

1
f(x+h)f(x)=Lh+o(|h|)hxxRm×nhRm×n
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.