Đúng là việc giới hạn độ lan truyền gradient của bạn xuống 30 bước thời gian sẽ ngăn nó học mọi thứ có thể trong tập dữ liệu của bạn. Tuy nhiên, nó phụ thuộc mạnh mẽ vào tập dữ liệu của bạn cho dù điều đó sẽ ngăn nó học những điều quan trọng về các tính năng trong mô hình của bạn!
Giới hạn độ dốc trong quá trình đào tạo giống như giới hạn cửa sổ mà mô hình của bạn có thể đồng hóa các tính năng đầu vào và trạng thái ẩn với độ tin cậy cao. Bởi vì tại thời điểm thử nghiệm, bạn áp dụng mô hình của mình cho toàn bộ chuỗi đầu vào, nó vẫn có thể kết hợp thông tin về tất cả các tính năng đầu vào vào trạng thái ẩn của nó. Nó có thể không biết chính xác làm thế nào để lưu giữ thông tin đó cho đến khi nó đưa ra dự đoán cuối cùng cho câu, nhưng có thể có một số kết nối (yếu hơn được thừa nhận) mà nó vẫn có thể thực hiện.
Trước tiên hãy nghĩ về một ví dụ giả định. Giả sử mạng của bạn tạo 1 nếu có 1 ở bất cứ đâu trong đầu vào của nó và 0 khác. Giả sử bạn huấn luyện mạng theo trình tự có độ dài 20 và giới hạn sau đó chuyển sang 10 bước. Nếu tập dữ liệu huấn luyện không bao giờ chứa 1 trong 10 bước cuối cùng của đầu vào, thì mạng sẽ gặp vấn đề với đầu vào kiểm tra của bất kỳ cấu hình nào. Tuy nhiên, nếu tập huấn luyện có một số ví dụ như [1 0 0 ... 0 0 0] và các ví dụ khác như [0 0 0 ... 1 0 0], thì mạng sẽ có thể nhận được "sự hiện diện của tính năng 1 "ở bất cứ đâu trong đầu vào của nó.
Quay lại phân tích tình cảm rồi. Giả sử trong quá trình đào tạo, mô hình của bạn gặp phải một câu phủ định dài như "Tôi ghét điều này bởi vì ... xung quanh và xung quanh" với, nói, 50 từ trong dấu chấm lửng. Bằng cách giới hạn lan truyền độ dốc xuống 30 bước thời gian, mô hình sẽ không kết nối "Tôi ghét điều này vì" với nhãn đầu ra, vì vậy nó sẽ không chọn "Tôi", "ghét" hoặc "điều này" từ khóa đào tạo này thí dụ. Nhưng nó sẽ nhận các từ trong vòng 30 bước kể từ khi kết thúc câu. Nếu tập huấn luyện của bạn chứa các ví dụ khác có chứa các từ tương tự, có thể cùng với "ghét" thì nó có cơ hội chọn liên kết giữa "ghét" và nhãn tình cảm tiêu cực. Ngoài ra, nếu bạn có các ví dụ đào tạo ngắn hơn, hãy nói, "Chúng tôi ghét điều này vì nó khủng khiếp!" sau đó mô hình của bạn sẽ có thể kết nối các tính năng "ghét" và "này" với nhãn đích. Nếu bạn có đủ các ví dụ đào tạo này, thì mô hình phải có khả năng học kết nối hiệu quả.
Vào thời gian thử nghiệm, giả sử bạn trình bày mô hình bằng một câu dài khác như "Tôi ghét điều này vì ... trên con tắc kè!" Đầu vào của mô hình sẽ bắt đầu bằng "Tôi ghét điều này", sẽ được chuyển sang trạng thái ẩn của mô hình ở một số dạng. Trạng thái ẩn này được sử dụng để tác động đến các trạng thái ẩn trong tương lai của mô hình, do đó, mặc dù có thể có 50 từ trước khi kết thúc câu, trạng thái ẩn từ những từ ban đầu đó có cơ hội lý thuyết ảnh hưởng đến đầu ra, mặc dù nó không bao giờ được huấn luyện về các mẫu có khoảng cách lớn như vậy giữa "Tôi ghét điều này" và cuối câu.