Khi đào tạo một mạng lưới thần kinh bằng thuật toán lan truyền ngược, phương pháp giảm độ dốc được sử dụng để xác định các cập nhật trọng lượng. Câu hỏi của tôi là: Thay vì sử dụng phương pháp giảm độ dốc để từ từ xác định điểm tối thiểu theo trọng số nhất định, tại sao chúng ta không đặt đạo hàm , và tìm giá trị của trọng lượng mà giảm thiểu lỗi?
Ngoài ra, tại sao chúng tôi chắc chắn rằng chức năng lỗi trong lan truyền ngược sẽ là tối thiểu? Thay vào đó, chức năng lỗi có thể là tối đa không? Có một thuộc tính cụ thể nào của các hàm băm đảm bảo rằng một mạng có bất kỳ số nút ẩn nào có trọng số tùy ý và vectơ đầu vào sẽ luôn đưa ra một hàm lỗi có một số cực tiểu không?