Tôi đang sử dụng tenorflow để viết các mạng thần kinh đơn giản cho một chút nghiên cứu và tôi đã gặp nhiều vấn đề với trọng lượng 'nan' trong khi đào tạo. Tôi đã thử nhiều giải pháp khác nhau như thay đổi trình tối ưu hóa, thay đổi mất mát, kích thước dữ liệu, v.v. nhưng không có kết quả. Cuối cùng, tôi nhận thấy rằng một sự thay đổi trong tỷ lệ học tập đã tạo ra một sự khác biệt không thể tin được về trọng lượng của tôi.
Sử dụng tỷ lệ học tập là 0,001 (mà tôi nghĩ là khá bảo thủ), hàm tối thiểu hóa sẽ thực sự làm tăng theo cấp số nhân. Sau một kỷ nguyên, sự mất mát có thể nhảy từ một con số trong hàng nghìn đến một nghìn tỷ và sau đó đến vô cùng ('nan'). Khi tôi hạ thấp tỷ lệ học tập xuống 0,0001, mọi thứ đều hoạt động tốt.
1) Tại sao một thứ tự cường độ có hiệu ứng như vậy?
2) Tại sao chức năng tối thiểu hóa thực hiện ngược lại chức năng của nó và tối đa hóa tổn thất? Dường như với tôi rằng điều đó không nên xảy ra, bất kể tỷ lệ học tập.