Tôi đã đọc rất nhiều về các mạng thần kinh liên hợp và đang tự hỏi làm thế nào chúng tránh được vấn đề độ dốc biến mất. Tôi biết các mạng niềm tin sâu xếp chồng các bộ mã hóa tự động cấp đơn hoặc các mạng nông được đào tạo trước khác và do đó có thể tránh được vấn đề này nhưng tôi không biết làm thế nào để tránh được nó trong CNN.
Theo Wikipedia :
"bất chấp" vấn đề độ dốc biến mất đã đề cập ở trên ", khả năng xử lý vượt trội của GPU giúp cho việc truyền ngược trở lại khả thi đối với các mạng nơ ron tiến sâu với nhiều lớp."
Tôi không hiểu tại sao xử lý GPU sẽ loại bỏ vấn đề này?
GPU's are fast correlated with vanishing gradients
, tôi có thể hiểu logic nhanh với băng thông bộ nhớ lớn để xử lý nhiều phép nhân ma trận! nhưng bạn có thể giải thích những gì nó phải làm với các công cụ phái sinh không? Các vấn đề độ dốc biến mất dường như làm nhiều hơn với khởi tạo trọng lượng , chứ không phải là nó!