Tôi đang đọc Why Momentum really Works , một bài đăng từ tạp chí chưng cất mới. Tôi sẽ diễn giải các phương trình chính dẫn đến phần làm tôi bối rối, bài viết mô tả trực giác chi tiết hơn.
Thuật toán giảm độ dốc được đưa ra bởi quá trình lặp sau trong đó là giá trị của lần lặp , tốc độ học tập là và là độ dốc của hàm đánh giá tại . Hàm bạn muốn giảm thiểu.
Độ dốc gốc với động lượng được đưa ra bằng cách thêm "bộ nhớ" vào gốc, điều này được mô tả bởi cặp phương trình:
Trong phần tiếp theo "Bước đầu tiên: Giảm dần độ dốc", tác giả đã xem xét hàm bậc hai lồi có gradient Nếu chúng ta giả sử là đối xứng và không thể đảo ngược thì có giải pháp tối ưu .
Nếu chúng ta sử dụng độ dốc gốc thì chúng ta sẽ lặp lại hướng tới giải pháp tối ưu này theo cách sau
Sau đó, bài báo tiếp tục nói "Có một không gian rất tự nhiên để xem độ dốc giảm dần trong đó tất cả các kích thước hoạt động độc lập - các hàm riêng của ". Tôi nghĩ rằng điều này có ý nghĩa, mặc dù trực giác của tôi là loại mờ.
Mọi ma trận đối xứng đều có phân rã giá trị riêng trong đó
Trong đó và là vectơ với các hàm riêng tương ứng dưới dạng cột (phải không?).
Phần tiếp theo này là nơi tôi không hiểu chuyện gì đang xảy ra:
Nếu chúng ta thực hiện thay đổi cơ sở, , các lần lặp lại bị phá vỡ, trở thành:
Di chuyển trở lại không gian ban đầu của chúng tôi , chúng ta có thể thấy rằng
Chuyện gì đang xảy ra ở đây? Đâu là động lực của việc đưa vào eigendomain? Là gì ? Tại sao bây giờ chúng ta nhìn vào các yếu tố bất biến của vectơ? Tôi đã cố gắng theo dõi các phép tính thông qua, nhưng phụ thuộc vào , điều này phụ thuộc vào , mà tôi nghĩ rằng chúng tôi đang cố gắng loại bỏ. Câu hỏi của tôi là ai đó có thể mở rộng trên một vài bước với một số trực giác và tính toán? Cảm ơn.