Đặt là ma trận . Tôi sẽ giả sử rằng cho đơn giản. Đó là tự nhiên hỏi, trong đó hướng nào có ảnh hưởng nhất (hoặc gây nổ nhất, hoặc sức mạnh khuếch đại nhất). Câu trả lời là
Một câu hỏi tiếp theo tự nhiên là, sau , hướng bùng nổ tiếp theo của ? Câu trả lời là
Am×nm≥nvAv1=argmaxv∈Rn∥Av∥2subject to ∥v∥2=1.(1)
v1Av2=argmaxv∈Rn∥Av∥2subject to ⟨v1,v⟩=0,∥v∥2=1.
Tiếp tục như thế này, chúng ta có được một cơ sở trực giao của . Đây cơ sở đặc biệt của cho chúng ta biết hướng mà là, trong một nghĩa nào đó, quan trọng nhất cho sự hiểu biết .v1,…,vnRnRnA
Đặt (vì vậy định lượng công suất nổ của theo hướng ). Giả sử rằng vectơ đơn vị được xác định sao cho
Các phương trình (2) có thể được biểu diễn chính xác bằng cách sử dụng ký hiệu ma trận là
trong đó là ma trận có cột thứ là , là ma trận có cột thứ là vàσi=∥Avi∥2σiAviuiAvi=σiuifor i=1,…,n.(2)
AV=UΣ,(3)
Vn×niviUm×niuiΣlà ma trận đường chéo có mục nhập đường chéo thứ là . Ma trận là trực giao, vì vậy chúng ta có thể nhân cả hai mặt của (3) với để thu được
Có vẻ như bây giờ chúng ta đã lấy được SVD của với nỗ lực gần như bằng không. Không có bước nào cho đến nay là khó khăn. Tuy nhiên, một phần quan trọng của bức tranh bị thiếu - chúng ta chưa biết rằng là trực giao.n×niσiVVTA=UΣVT.
AU
Đây là một thực tế quan trọng, phần còn thiếu: hóa ra là trực giao với :
Tôi cho rằng nếu điều này không đúng, thì sẽ không tối ưu cho vấn đề (1). Thật vậy, nếu (4) không hài lòng, thì có thể cải thiện bằng cách làm nhiễu nó một chút theo hướng .Av1Av2⟨Av1,Av2⟩=0.(4)
v1 v1v2
Giả sử (vì mâu thuẫn) mà (4) không hài lòng. Nếu bị nhiễu một chút theo hướng trực giao , thì định mức của không thay đổi (hoặc ít nhất, sự thay đổi trong định mức của là không đáng kể). Khi tôi đi trên bề mặt trái đất, khoảng cách của tôi với tâm trái đất không thay đổi. Tuy nhiên, khi đang bị nhiễu loạn theo hướng , vector đang bị nhiễu loạn trong không trực giao hướng , và do đó thay đổi trong chỉ tiêu là không đáng kể . Định mức củav1v2v1v1v1v2Av1Av2Av1Av1có thể được tăng lên bởi một lượng không đáng kể. Điều này có nghĩa là không tối ưu cho vấn đề (1), đây là một mâu thuẫn. Tôi thích lập luận này vì: 1) trực giác rất rõ ràng; 2) trực giác có thể được chuyển đổi trực tiếp thành một bằng chứng nghiêm ngặt.v1
Một lập luận tương tự cho thấy trực giao với cả và , v.v. Các vectơ là trực giao theo cặp. Điều này có nghĩa là các vectơ đơn vị có thể được chọn là trực giao theo cặp, có nghĩa là ma trận ở trên là ma trận trực giao. Điều này hoàn thành khám phá của chúng tôi về SVD.Av3Av1Av2Av1,…,Avnu1,…,unU
Để chuyển đổi đối số trực quan ở trên thành một bằng chứng nghiêm ngặt, chúng ta phải đối mặt với thực tế là nếu bị nhiễu theo hướng , vectơ nhiễu loạn
không thực sự là một vectơ đơn vị. (Định mức của nó là .) Để có được bằng chứng nghiêm ngặt, hãy xác định
Vectơ thực sự là một vectơ đơn vị. Nhưng như bạn có thể dễ dàng hiển thị, nếu (4) không thỏa mãn, thì với các giá trị đủ nhỏ của chúng ta có
(giả sử rằng dấu hiệu củav1v2v~1=v1+ϵv2
1+ϵ2−−−−−√v¯1(ϵ)=1−ϵ2−−−−−√v1+ϵv2.
v¯1(ϵ)ϵf(ϵ)=∥Av¯1(ϵ)∥22>∥Av1∥22
ϵđược chọn chính xác). Để hiển thị điều này, chỉ cần kiểm tra xem . Điều này có nghĩa là không tối ưu cho vấn đề (1), đây là một mâu thuẫn.f′(0)≠0v1
(Nhân tiện, tôi khuyên bạn nên đọc lời giải thích của Qiaochu Yuan về SVD ở đây . Đặc biệt, hãy xem "Key lemma # 1", đó là những gì chúng ta đã thảo luận ở trên. Như Qiaochu nói, bổ đề chính # 1 là "trái tim kỹ thuật của phân rã giá trị số ít ".)