Trong các bài báo như thế này tôi thường thấy các đường cong đào tạo với hình dạng này:
Trong trường hợp này, SGD đã được sử dụng với hệ số 0,9 và tốc độ học tập giảm theo hệ số 10 cứ sau 30 kỷ nguyên.
- Tại sao có sự sụt giảm lớn như vậy khi lỗi thay đổi tốc độ học tập?
- Tại sao lỗi xác nhận bắt đầu tăng sau khi giảm ban đầu, trong khi lỗi đào tạo tiếp tục giảm?
- Có thể thu được kết quả tương tự bằng cách di chuyển tỷ lệ học tập thứ 2 và tiếp theo thay đổi gần nhau hơn không? Đó là, tại sao sự chậm trễ trong việc giảm thêm?