Độ dốc của được xem trong không gian của Eigenvector của


7

Tôi đang đọc Why Momentum really Works , một bài đăng từ tạp chí chưng cất mới. Tôi sẽ diễn giải các phương trình chính dẫn đến phần làm tôi bối rối, bài viết mô tả trực giác chi tiết hơn.

Thuật toán giảm độ dốc được đưa ra bởi quá trình lặp sau trong đó là giá trị của lần lặp , tốc độ học tập là và là độ dốc của hàm đánh giá tại . Hàm bạn muốn giảm thiểu.

wk+1=wkαf(wk)
wkkαf(w)fwf

Độ dốc gốc với động lượng được đưa ra bằng cách thêm "bộ nhớ" vào gốc, điều này được mô tả bởi cặp phương trình:

zk+1=βzk+f(wk)wk+1=wkαzk+1

Trong phần tiếp theo "Bước đầu tiên: Giảm dần độ dốc", tác giả đã xem xét hàm bậc hai lồi có gradient Nếu chúng ta giả sử là đối xứng và không thể đảo ngược thì có giải pháp tối ưu .

f(w)=12wTAwbTw,wRn,ARn,n
f(w)=Awb
Afw=A1b

Nếu chúng ta sử dụng độ dốc gốc thì chúng ta sẽ lặp lại hướng tới giải pháp tối ưu này theo cách sau

wk+1=wkαf(w)=wkα(Awkb)

Sau đó, bài báo tiếp tục nói "Có một không gian rất tự nhiên để xem độ dốc giảm dần trong đó tất cả các kích thước hoạt động độc lập - các hàm riêng của ". Tôi nghĩ rằng điều này có ý nghĩa, mặc dù trực giác của tôi là loại mờ.A

Mọi ma trận đối xứng đều có phân rã giá trị riêng trong đóA

A=Qdiag(λ1,,λn)QT.

Trong đó và là vectơ với các hàm riêng tương ứng dưới dạng cột (phải không?).λ1>>λnQ

Phần tiếp theo này là nơi tôi không hiểu chuyện gì đang xảy ra:

Nếu chúng ta thực hiện thay đổi cơ sở, , các lần lặp lại bị phá vỡ, trở thành:xk=QT(wkw)

xik+1=xikαλixik=(1αλi)xik=(1αλi)k+1xi0

Di chuyển trở lại không gian ban đầu của chúng tôi , chúng ta có thể thấy rằngw

wkw=Qxk=in=xi0(1αλi)kqi

Chuyện gì đang xảy ra ở đây? Đâu là động lực của việc đưa vào eigendomain? Là gì ? Tại sao bây giờ chúng ta nhìn vào các yếu tố bất biến của vectơ? Tôi đã cố gắng theo dõi các phép tính thông qua, nhưng phụ thuộc vào , điều này phụ thuộc vào , mà tôi nghĩ rằng chúng tôi đang cố gắng loại bỏ. Câu hỏi của tôi là ai đó có thể mở rộng trên một vài bước với một số trực giác và tính toán? Cảm ơn.wkwxkxk+1wk+1zk

Câu trả lời:


5

Trong nhiều ứng dụng toán học, động lực trở nên rõ ràng hơn sau khi nhận được kết quả. Vì vậy, hãy bắt đầu với đại số.

Giả sử chúng ta đã chạy GD cho lặp đi lặp lại. Điều này sẽ cho chúng ta những bộ .T(wk)k=1T

Hãy thay đổi cơ sở:

wk=Qxk+w xk=QT(wkw)

Bây giờ chúng ta có . Chúng ta có thể nói gì về họ? Chúng ta hãy xem xét từng tọa độ riêng biệt. Bằng cách thay thế ở trên và sử dụng bước cập nhật của GD,(xk)k=1T

xik+1=(QT(wk+1w))i=(QT(wkα(Awkb)w))i

Sắp xếp

xik+1=(QT(wkw))iα(QT(Awkb))i

Thuật ngữ đầu tiên chính xác là . Đối với nhiệm kỳ thứ hai, chúng ta thay . Sản lượng này,xikA=Qdiag(λ1λn)QT

xik+1=xikαλixik=(1αλi)xik

Đó là một bước duy nhất. Lặp đi lặp lại cho đến khi chúng tôi hoàn thành , chúng tôi nhận đượcx0

xik+1=(1αλi)k+1xi0

Tất cả điều này dường như thực sự vô dụng vào thời điểm này. Hãy quay trở lại mối quan tâm ban đầu của chúng tôi, s. Từ thay đổi cơ bản ban đầu của chúng tôi, chúng tôi biết rằng . Một cách khác để viết phép nhân của ma trận với vectơ là . Nhưng chúng tôi đã chỉ ra ở trên rằng . Kết hợp mọi thứ lại với nhau, chúng tôi đã thu được công thức "biểu mẫu đóng" mong muốn cho bước cập nhật GD:wwkw=QxkQxkixikqixik=(1αλi)kxi0

wkw=ixi0(1αλi)kqi

Đây thực chất là một biểu thức cho "lỗi" tại lần lặp của GD (chúng ta cách giải pháp tối ưu bao xa, ). Vì chúng ta đang quan tâm trong việc đánh giá hiệu suất của GD, đây là những biểu hiện chúng tôi muốn phân tích. Có hai quan sát ngay lập tức. Đầu tiên là thuật ngữ này chuyển sang 0 khi đi đến vô cùng, đó là điều tất nhiên là tin tốt. Thứ hai là lỗi phân hủy rất độc đáo thành các phần tử riêng biệt của , thậm chí còn đẹp hơn cho mục đích phân tích của chúng tôi. Ở đây tôi trích dẫn từ bài viết gốc, vì tôi nghĩ họ giải thích nó một cách độc đáo:kwkx0

Mỗi phần tử của là thành phần của lỗi trong phỏng đoán ban đầu trong -bocation. Có lỗi như vậy và mỗi lỗi này theo con đường đơn độc của riêng nó đến mức tối thiểu, giảm theo cấp số nhân với tỷ lệ là . Con số đó càng gần 1 thì nó càng hội tụ chậm.x0Qn1αλi

Tôi hy vọng điều này sẽ làm sáng tỏ mọi thứ cho bạn đủ để bạn có thể tiếp tục đọc bài viết. Đó là một trong những thực sự tốt!


Wow cảm ơn bạn rất nhiều, đây là một câu trả lời tuyệt vời! Có lẽ tôi nên đọc thêm một chút để biết quan điểm của tất cả những điều này là gì. Dễ trở nên chán nản khi bạn bị lạc ở bit toán đầu tiên trong một tạp chí dành cho những lời giải thích rõ ràng: P
HBeel

1

Tôi đã đọc cùng một tờ giấy, bị mắc kẹt tại cùng một địa điểm và làm việc với sự giúp đỡ của câu trả lời của galoosh33 .

Tôi chỉ không tìm thấy bước rõ ràng:

xik+1=(QT(wkw))iα(QT(Awkb))i=xiαλixik

Vì vậy, đối với những người không muốn làm việc thông qua đại số và không thấy ngay lập tức, làm thế nào chúng ta thoát khỏi , đó là từ sự thay thế và và thực tế là các hàm riêng là trực giao .bwk=Qxk+ww=A1bQ1=QT

(QTAwkQTb)i=(QTAQxk+QTAwA1bQTb)i=(QTQIdiag(λ1,,λn)QTQIxk+QTAA1IbQTb0)i=λixik


0

Tôi sẽ cung cấp một vài nhận xét bằng ngôn ngữ của máy học, hy vọng sẽ đưa bạn đến một kết luận hợp lý hữu ích.

Đầu tiên, giảm thiểu mục tiêu bậc hai đó giống như giải một bài toán bình phương nhỏ nhất (nếu điều này không rõ ràng, hãy thử chứng minh nó như một bài tập). Thứ hai, đối với bất kỳ bài toán bình phương nhỏ nhất nào, nếu các tính năng là trực giao, thì việc ước tính các hệ số riêng biệt hoặc tuần tự (như thực hiện chính xác một vòng tọa độ gốc) tương đương với việc ước lượng chúng cùng nhau. (Nếu điều này không rõ ràng, thì giả sử các tính năng là trực giao. Bạn có thấy điều này có nghĩa là phải là đường chéo không? Điều đó có nghĩa là mỗi mục của giải pháp không phụ thuộc vào các mục khác).A

Vì vậy, bây giờ câu hỏi là: Làm thế nào chúng ta có thể giải quyết vấn đề tương tự, nhưng với một ma trận đường chéo thay cho ? Thứ ba, định mức là bất biến trực giao, do đó, nếu bạn trái hoặc phải nhân bất cứ thứ gì nằm trong định mức bằng một ma trận trực giao (được hiểu là một phép quay), bạn có thể giải quyết vấn đề đó sau đó quay lại phép biến đổi trực giao đó tại kết thúc. Vì là bán xác định dương đối xứng, chúng ta có thể nhận được các ma trận trực giao đó từ phân rã giá trị riêng của (còn gọi là "chéo" ).A2AAA

Quay lại thống kê: Quá trình này đôi khi được gọi là làm trắng hoặc làm trắng trước mặc dù tôi tin rằng không có sự hình thành như cách sử dụng thuật ngữ này.

Nói một cách đơn giản và lỏng lẻo, trong không gian điện tử của , các cột / hàng của có thể được xem như là những mẩu thông tin hoàn toàn riêng biệt và không liên quan.AA

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.