Hiểu về bỏ học và giảm độ dốc

Tôi đang xem xét làm thế nào để thực hiện bỏ học trên mạng lưới thần kinh sâu sắc và tôi đã tìm thấy một cái gì đó phản trực quan. Trong kích hoạt mặt nạ bỏ qua pha phía trước với một thang đo ngẫu nhiên 1 và 0 để buộc mạng phải học trung bình của các trọng số. Điều này giúp mạng để khái quát tốt hơn. Nhưng trong giai đoạn cập nhật độ dốc giảm dần, các kích hoạt không được che dấu. Điều này với tôi dường như phản trực giác. Nếu tôi che dấu các kích hoạt kết nối với bỏ học, tại sao tôi không nên che giấu pha giảm dần?

neural-network deep-learning gradient-descent

— emanuele
nguồn

Tôi không chắc chắn nơi bạn tìm thấy một tài liệu tham khảo cho thấy bỏ học được sử dụng để che dấu trọng lượng ? Tôi nghĩ đó là không chính xác.

— Neil Slater

bạn đúng, tôi đã sử dụng khái niệm sai.

— emanuele

Trong học sinh bỏ học như được mô tả trong http://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf , các trọng số không bị che lấp. Thay vào đó, các kích hoạt nơ-ron được che dấu, ví dụ như nó được trình bày để huấn luyện (tức là mặt nạ được chọn ngẫu nhiên cho mỗi lần chạy về phía trước và chuyển tiếp backprop, không bao giờ lặp lại).

Các kích hoạt được che dấu trong quá trình chuyển tiếp và tính toán độ dốc sử dụng cùng một mặt nạ trong quá trình truyền ngược lại ví dụ đó. Điều này có thể được thực hiện như một công cụ sửa đổi trong một mô tả lớp hoặc như một lớp bỏ học riêng biệt.

Trong giai đoạn cập nhật trọng lượng, thường được áp dụng trên một lô nhỏ (trong đó mỗi ví dụ sẽ có mặt nạ khác nhau được áp dụng), không sử dụng thêm mặt nạ bỏ học. Các giá trị gradient được sử dụng để cập nhật đã bị ảnh hưởng bởi các mặt nạ được áp dụng trong quá trình truyền ngược.

Tôi tìm thấy một tài liệu tham khảo hữu ích để tìm hiểu cách thức hoạt động của học sinh bỏ học, vì có thể tự thực hiện, là Hộp công cụ Deep Learn cho Matlab / Octave.

— Neil Slater
nguồn