Trong thuật toán giảm độ dốc, thuật toán tiến hành bằng cách tìm hướng mà bạn có thể tìm ra giải pháp tối ưu. Hướng tối ưu hóa ra là độ dốc. Tuy nhiên, vì chúng ta chỉ quan tâm đến hướng và không nhất thiết là chúng ta di chuyển theo hướng đó bao xa, nên chúng ta thường không quan tâm đến độ lớn của độ dốc. Qua đó, bình thường hóa gradient là đủ tốt cho mục đích của chúng tôi và chúng ta để cho ηchỉ ra cách chúng ta muốn di chuyển theo hướng tính toán. Tuy nhiên, nếu bạn sử dụng độ dốc độ dốc không chuẩn hóa, thì tại bất kỳ điểm nào, khoảng cách bạn di chuyển theo hướng tối ưu được quyết định bởi độ lớn của độ dốc (về bản chất được xác định bởi bề mặt của hàm mục tiêu, tức là một điểm trên bề mặt dốc sẽ có cường độ cao trong khi một điểm trên bề mặt khá phẳng sẽ có cường độ thấp).
Từ những điều trên, bạn có thể đã nhận ra rằng bình thường hóa độ dốc là một quyền lực kiểm soát bổ sung mà bạn có được (dù nó có hữu ích hay không là một cái gì đó tùy thuộc vào ứng dụng cụ thể của bạn). Những gì tôi có nghĩa là bởi ở trên là:
1] Nếu bạn muốn đảm bảo rằng động thái thuật toán của bạn có kích thước bước cố định trong mỗi lần lặp, sau đó bạn có thể muốn sử dụng gradient descent bình thường với cố định .
2] Nếu bạn muốn đảm bảo rằng động thái thuật toán của bạn trong các kích cỡ bước mà được quyết định một cách chính xác bởi bạn, sau đó một lần nữa bạn có thể muốn sử dụng bình thường gradient descent với chức năng cụ thể của bạn cho kích thước bước mã hóa thành η .η
η
3] Nếu bạn muốn để độ lớn của gradient quy định kích thước bước, thì bạn sẽ sử dụng độ dốc giảm dần không chuẩn hóa. Có một số biến thể khác như bạn có thể để độ lớn của gradient quyết định kích thước bước, nhưng bạn đặt một nắp trên nó và cứ thế.
Bây giờ, kích thước bước rõ ràng có ảnh hưởng đến tốc độ hội tụ và ổn định. Những kích thước bước trên hoạt động tốt nhất hoàn toàn phụ thuộc vào ứng dụng của bạn (tức là chức năng khách quan). Trong một số trường hợp nhất định, có thể phân tích mối quan hệ giữa tốc độ hội tụ, độ ổn định và kích thước bước. Mối quan hệ này sau đó có thể đưa ra một gợi ý về việc bạn muốn đi với độ dốc dốc bình thường hóa hoặc không chuẩn hóa.
Tóm lại, không có sự khác biệt giữa việc giảm độ dốc chuẩn hóa và không chuẩn hóa (theo như lý thuyết đằng sau thuật toán này). Tuy nhiên, nó có tác động thực tế đến tốc độ hội tụ và ổn định. Sự lựa chọn của cái này hơn cái kia hoàn toàn dựa trên ứng dụng / mục tiêu trong tay.