Dropout ( giấy , giải thích ) đặt đầu ra của một số nơ-ron bằng không. Vì vậy, đối với MLP, bạn có thể có kiến trúc sau cho bộ dữ liệu hoa Iris :
4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)
Nó sẽ hoạt động như thế này:
với , , , , (bỏ qua các thành kiến vì đơn giản).
Với và
trong đó thao tác nhân điểm khôn ngoan với (xem sản phẩm Hadamard ).
Do đó, chúng tôi chỉ lấy mẫu ma trận mỗi lần và do đó, việc bỏ học trở thành phép nhân của một nút có 0.
Nhưng đối với CNN, tôi không rõ chính xác những gì đã bị loại bỏ. Tôi có thể thấy ba khả năng:
- Bỏ bản đồ tính năng hoàn chỉnh (do đó là kernel)
- Bỏ một phần tử của kernel (thay thế một phần tử của kernel bằng 0)
- Bỏ một yếu tố của bản đồ đặc trưng
Vui lòng thêm một tài liệu tham khảo / trích dẫn để trả lời của bạn.
Suy nghĩ của tôi
Tôi nghĩ Lasagne không (3) (xem mã ). Đây có thể là đơn giản nhất để thực hiện. Tuy nhiên, gần hơn với ý tưởng ban đầu có thể là (1).
Có vẻ tương tự như Caffe (xem mã ). Đối với dòng chảy, người dùng phải quyết định ( mã - tôi không chắc điều gì sẽ xảy ra khi noise_shape=None
được thông qua).
Nó nên như thế nào
(2) và (3) không có ý nghĩa nhiều vì nó sẽ khiến mạng thêm bất biến vào các vị trí không gian, điều có lẽ không mong muốn. Do đó (1) là biến thể duy nhất có ý nghĩa. Nhưng tôi không chắc điều gì sẽ xảy ra nếu bạn sử dụng cài đặt mặc định.