Đề cập đến các ghi chú khóa học Stanford về Mạng thần kinh chuyển đổi để nhận dạng trực quan , một đoạn văn nói:
"Thật không may, các đơn vị ReLU có thể dễ vỡ trong quá trình luyện tập và có thể" chết ". Ví dụ, một gradient lớn chảy qua nơron ReLU có thể khiến các trọng số cập nhật theo cách mà nơ ron sẽ không bao giờ kích hoạt lại bất kỳ điểm dữ liệu nào nữa. xảy ra, sau đó độ dốc chảy qua đơn vị sẽ mãi mãi bằng 0 kể từ thời điểm đó. Nghĩa là, các đơn vị ReLU có thể chết không hồi phục trong quá trình đào tạo vì chúng có thể bị loại bỏ đa tạp dữ liệu. Ví dụ, bạn có thể thấy rằng có đến 40 % mạng của bạn có thể bị "chết" (tức là các nơ-ron không bao giờ kích hoạt trên toàn bộ tập dữ liệu đào tạo) nếu tốc độ học tập được đặt quá cao. Với một cài đặt thích hợp của tốc độ học, điều này ít xảy ra hơn. "
Cái chết của tế bào thần kinh ở đây có nghĩa là gì?
Bạn có thể vui lòng cung cấp một lời giải thích trực quan bằng các thuật ngữ đơn giản hơn.