Câu trả lời:
Bạn sẽ muốn thực hiện cắt độ dốc khi bạn gặp phải vấn đề biến mất độ dốc hoặc nổ độ dốc. Tuy nhiên, đối với cả hai kịch bản, có những giải pháp tốt hơn:
Độ dốc nổ xảy ra khi độ dốc trở nên quá lớn và bạn bị tràn số. Điều này có thể dễ dàng khắc phục bằng cách khởi tạo trọng số của mạng thành các giá trị nhỏ hơn. Nếu điều này không hoạt động thì có khả năng là có lỗi trong mã.
Độ dốc biến mất xảy ra khi tối ưu hóa bị kẹt ở điểm yên ngựa, độ dốc trở nên quá nhỏ để quá trình tối ưu hóa tiến triển. Điều này có thể được khắc phục bằng cách sử dụng độ dốc giảm dần với động lượng hoặc RMS prop hoặc cả hai (còn được gọi là trình tối ưu hóa Adam).
Giá trị bắt đầu cho giới hạn trên của cắt độ dốc sẽ là một cái gì đó nhỏ hơn số lớn nhất mà biến có thể lấy. Đối với giới hạn dưới, tôi sẽ nói đó là vấn đề cụ thể nhưng có lẽ bắt đầu bằng thứ gì đó như 1e-10.