Tôi đang xem xét làm thế nào để thực hiện bỏ học trên mạng lưới thần kinh sâu sắc và tôi đã tìm thấy một cái gì đó phản trực quan. Trong kích hoạt mặt nạ bỏ qua pha phía trước với một thang đo ngẫu nhiên 1 và 0 để buộc mạng phải học trung bình của các trọng số. Điều này giúp mạng để khái quát tốt hơn. Nhưng trong giai đoạn cập nhật độ dốc giảm dần, các kích hoạt không được che dấu. Điều này với tôi dường như phản trực giác. Nếu tôi che dấu các kích hoạt kết nối với bỏ học, tại sao tôi không nên che giấu pha giảm dần?