Tôi hiện đang hơi bối rối bởi làm thế nào để giảm độ dốc của lô nhỏ có thể bị mắc kẹt trong một điểm yên ngựa.
Giải pháp có thể quá tầm thường mà tôi không nhận được.
Bạn nhận được một mẫu mới mỗi epoch và nó tính toán một lỗi mới dựa trên một lô mới, do đó, hàm chi phí chỉ tĩnh đối với mỗi lô, điều đó có nghĩa là độ dốc cũng sẽ thay đổi cho từng lô nhỏ .. nhưng theo điều này nên việc thực hiện vanilla có vấn đề với điểm yên ngựa?
Một thách thức quan trọng khác của việc giảm thiểu các hàm lỗi không lồi rất phổ biến đối với các mạng thần kinh là tránh bị mắc kẹt trong vô số cực tiểu cục bộ tối thiểu của chúng. Dauphin và cộng sự. [19] lập luận rằng khó khăn phát sinh trên thực tế không phải từ cực tiểu địa phương mà từ các điểm yên ngựa, tức là các điểm mà một chiều dốc lên và một dốc khác xuống. Các điểm yên ngựa này thường được bao quanh bởi một cao nguyên có cùng lỗi, điều này khiến SGD khó có thể thoát ra được, vì độ dốc gần bằng 0 ở mọi chiều.
Tôi có nghĩa là đặc biệt là SGD sẽ có lợi thế rõ ràng so với các điểm yên ngựa, vì nó dao động theo hướng hội tụ của nó ... Các dao động và lấy mẫu ngẫu nhiên, và chức năng chi phí khác nhau cho mỗi kỷ nguyên là đủ lý do để không bị mắc kẹt trong một kỷ nguyên.
Đối với độ dốc hàng loạt đầy đủ, điều đó có nghĩa là nó có thể bị kẹt trong điểm yên ngựa, vì chức năng lỗi là không đổi.
Tôi hơi bối rối về hai phần khác.