Chính xác thì DropOut hoạt động như thế nào với các lớp chập?


10

Dropout ( giấy , giải thích ) đặt đầu ra của một số nơ-ron bằng không. Vì vậy, đối với MLP, bạn có thể có kiến ​​trúc sau cho bộ dữ liệu hoa Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Nó sẽ hoạt động như thế này:

softmax(W3tanh(W2mask(D,tanh(W1input_vector)))

với , , , , (bỏ qua các thành kiến ​​vì đơn giản).input_vectorR4×1W1R50×4D{0,1}50×1W2R20×50W3R20×3

Với vàD=(d)ij

dijB(1,p=0.5)

trong đó thao tác nhân điểm khôn ngoan với (xem sản phẩm Hadamard ).mask(D,M)DM

Do đó, chúng tôi chỉ lấy mẫu ma trận mỗi lần và do đó, việc bỏ học trở thành phép nhân của một nút có 0.D

Nhưng đối với CNN, tôi không rõ chính xác những gì đã bị loại bỏ. Tôi có thể thấy ba khả năng:

  1. Bỏ bản đồ tính năng hoàn chỉnh (do đó là kernel)
  2. Bỏ một phần tử của kernel (thay thế một phần tử của kernel bằng 0)
  3. Bỏ một yếu tố của bản đồ đặc trưng

Vui lòng thêm một tài liệu tham khảo / trích dẫn để trả lời của bạn.

Suy nghĩ của tôi

Tôi nghĩ Lasagne không (3) (xem ). Đây có thể là đơn giản nhất để thực hiện. Tuy nhiên, gần hơn với ý tưởng ban đầu có thể là (1).

Có vẻ tương tự như Caffe (xem ). Đối với dòng chảy, người dùng phải quyết định ( - tôi không chắc điều gì sẽ xảy ra khi noise_shape=Noneđược thông qua).

Nó nên như thế nào

(2) và (3) không có ý nghĩa nhiều vì nó sẽ khiến mạng thêm bất biến vào các vị trí không gian, điều có lẽ không mong muốn. Do đó (1) là biến thể duy nhất có ý nghĩa. Nhưng tôi không chắc điều gì sẽ xảy ra nếu bạn sử dụng cài đặt mặc định.


Tôi cũng đã hỏi câu hỏi trong nhóm người dùng Lasagne .
Martin Thoma

Tôi bạn lưu ý rằng (2) và (3) có thể không phải là một ý tưởng tốt bởi vì nó có thể buộc mạng truyền bá thông tin theo không gian.
Martin Thoma

Câu trả lời:


1

Như bạn đã đề cập, ma trận mặt nạ được lấy mẫu và nhân với các kích hoạt trong bản đồ đặc trưng ở lớp để tạo ra các kích hoạt được sửa đổi, sau đó được tích hợp với bộ lọc ở lớp tiếp theo . (3)lW(l+1)

Để biết thêm chi tiết, tôi nghĩ phần 3 trong bài viết này có thể giúp bạn hiểu rõ: Bỏ học tối đa & bỏ học . Cụ thể 3.2.

Khi bạn kiểm tra, bạn sử dụng tất cả các nút của mạng nhưng với trọng số của bộ lọc được chia tỷ lệ theo xác suất giữ lại, như được giải thích trong bài báo.

Xin vui lòng tinh chỉnh hoặc sửa câu trả lời của tôi.

Hy vọng điều này sẽ giúp ít nhất một chút.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.