Tối đa trong mạng lưới thần kinh là gì?


42

Bất cứ ai có thể giải thích các đơn vị tối đa trong một mạng lưới thần kinh làm gì? Làm thế nào để họ thực hiện và làm thế nào để họ khác với các đơn vị thông thường?

Tôi đã cố đọc bài báo "Maxout Network" năm 2013 của Goodfellow et al. (từ nhóm của giáo sư Yoshua Bengio), nhưng tôi không hiểu lắm.

Câu trả lời:


26

Một lớp maxout chỉ đơn giản là một lớp trong đó chức năng kích hoạt là tối đa của các đầu vào. Như đã nêu trong bài báo, ngay cả một MLP với 2 đơn vị tối đa có thể xấp xỉ bất kỳ chức năng nào. Họ đưa ra một vài lý do là tại sao maxout có thể hoạt động tốt, nhưng lý do chính họ đưa ra là như sau -

Dropout có thể được coi là một dạng mô hình trung bình trong đó một mạng con ngẫu nhiên được đào tạo ở mỗi lần lặp và cuối cùng, trọng số của các mạng ngẫu nhiên như vậy được tính trung bình. Vì người ta không thể trung bình các trọng số một cách rõ ràng, nên một phép tính gần đúng được sử dụng. Phép tính gần đúng này là chính xác cho một mạng tuyến tính
Trong tối đa, họ không bỏ các đầu vào vào lớp tối đa. Do đó, danh tính của đầu vào xuất giá trị tối đa cho điểm dữ liệu vẫn không thay đổi. Do đó, việc bỏ học chỉ xảy ra trong phần tuyến tính của MLP nhưng người ta vẫn có thể tính gần đúng bất kỳ chức năng nào do lớp tối đa.
Vì việc bỏ học chỉ xảy ra trong phần tuyến tính, họ phỏng đoán rằng điều này dẫn đến mô hình trung bình hiệu quả hơn vì tính gần đúng trung bình là chính xác cho các mạng tuyến tính.

Mã của họ có sẵn ở đây .


1
Cảm ơn! Tôi hiểu làm thế nào để làm tối đa bây giờ. Tôi có một số câu hỏi. (1) Vì vậy, bạn không bỏ học trước khi rút ra tối đa theo những gì bạn đã viết "Trong tối đa, họ không bỏ các đầu vào vào lớp tối đa."? (2) Phần tuyến tính của MLP có nghĩa là gì? "Do đó, việc bỏ học chỉ xảy ra trong phần tuyến tính của MLP nhưng người ta vẫn có thể tính gần đúng bất kỳ chức năng nào do lớp tối đa." (3) Tại sao tính trung bình tốt hơn? "Vì việc bỏ học chỉ xảy ra trong phần tuyến tính, họ phỏng đoán rằng điều này dẫn đến mô hình trung bình hiệu quả hơn vì tính gần đúng trung bình là chính xác cho các mạng tuyến tính."
RockTheStar

2
(1) Vì vậy, theo những gì tôi hiểu, một nút lớp là và . Vì vậy, các nút đầu vào của lớp maxout là sự kết hợp tuyến tính của các nút trong các lớp sâu hơn. Bỏ học không được thực hiện cho lớp maxout hoặc cho lớp z nhưng nó được thực hiện cho các lớp sâu hơn thế. (2) Theo phần tuyến tính, điều đó có nghĩa là các lớp ẩn chỉ có chức năng kích hoạt tuyến tính (3) tính trung bình tốt hơn như đối với các mạng tuyến tính, sơ đồ trung bình được sử dụng bởi học sinh bỏ học là chính xác. Nói chung NN không tuyến tính nhưng với maxout, chúng tạo ra hầu hết NN tuyến tính và chỉ thực hiện bỏ học trên phần tuyến tính. max(zi)zi=kxk
Chọn

Cảm ơn! Đối với (3) "chính xác" nghĩa là gì và tại sao NN trở thành tuyến tính với maxout? Cảm ơn bạn rất nhiều vì đã giúp đỡ của bạn.
RockTheStar

1
Nah maxout là một kiến ​​trúc mạng. Bỏ học là một kỹ thuật chính quy
Opt

1
-1 Đây không phải là định nghĩa đúng về chức năng kích hoạt tối đa của Goodfellow. Câu trả lời của @ toussaint-louverture đã đúng. stats.stackexchange.com/a/298705/20587
Trisoloriansunscreen

15

Một đơn vị tối đa có thể học một hàm tuyến tính, lồi với tối đa k mảnh. 1

Vì vậy, khi k là 2, bạn có thể triển khai ReLU, ReLU tuyệt đối, ReLU bị rò rỉ, v.v. hoặc nó có thể học cách thực hiện một chức năng mới. Nếu k là 10, bạn thậm chí có thể học hàm lồi.

Khi k là 2:

tế bào thần kinh Maxout tính toán hàm . Cả ReLU và Leaky ReLU đều là trường hợp đặc biệt của mẫu này (ví dụ: đối với ReLU, chúng tôi có ). Do đó, tế bào thần kinh Maxout được hưởng tất cả các lợi ích của đơn vị ReLU (chế độ hoạt động tuyến tính, không bão hòa) và không có nhược điểm của nó (chết ReLU).max(w1Tx+b1,w2Tx+b2)w1,b1=0

Tuy nhiên, không giống như các nơ-ron ReLU, nó nhân đôi số lượng tham số cho mỗi nơ-ron đơn lẻ, dẫn đến tổng số tham số cao. 2

Bạn có thể đọc chi tiết tại đây:
1. Sách DL
2. http://cs231n.github.io/neural-networks-1


Nó chỉ tăng gấp đôi số lượng tham số thiên vị, không phải tất cả các trọng số.
hans
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.