Thuật ngữ bão hòa phi tuyến có nghĩa là gì?


30

Tôi đã đọc bài Phân loại ImageNet với Mạng nơ-ron kết hợp sâu và trong phần 3 họ đã giải thích kiến ​​trúc của Mạng nơ-ron kết hợp của họ, họ giải thích cách họ thích sử dụng:

phi tuyến không bão hòaf(x)= =mmộtx(0,x).

bởi vì nó nhanh hơn để đào tạo Trong bài báo đó, họ dường như đề cập đến các phi tuyến bão hòa như các hàm truyền thống hơn được sử dụng trong CNN, sigmoid và các hàm tiếp tuyến hyperbolic (tức là và khi bão hòa).f(x)= =tmộtnh(x)f(x)= =11+e-x= =(1+e-x)-1

Tại sao họ gọi các chức năng này là "bão hòa" hoặc "không bão hòa"? Theo nghĩa nào thì các chức năng này "bão hòa" hoặc "không bão hòa"? Những thuật ngữ đó có ý nghĩa gì trong bối cảnh của các mạng nơ ron tích chập? Chúng có được sử dụng trong các lĩnh vực khác của máy học (và thống kê) không?


Tôi cũng tìm thấy câu trả lời quora này rất hữu ích.
thẳng thắn

Câu trả lời:


26

Trực giác

Một chức năng kích hoạt bão hòa siết chặt đầu vào.


Định nghĩa

  • f không bão hòa iff(|limz-f(z)|= =+)(|limz+f(z)|= =+)
  • f đang bão hòa iff không phải là không bão hòa.f

Các định nghĩa này không cụ thể đối với các mạng thần kinh tích chập.


Ví dụ

Hàm kích hoạt Đơn vị tuyến tính chỉnh sửa (ReLU), được định nghĩa là không bão hòa vì :f(x)= =mmộtx(0,x)limz+f(z)= =+

nhập mô tả hình ảnh ở đây

Hàm kích hoạt sigmoid, được định nghĩa là đang bão hòa, bởi vì nó đè bẹp các số thực nằm trong khoảng :f(x)= =11+e-x[0,1]

nhập mô tả hình ảnh ở đây

Hàm kích hoạt tanh (hyperbolic tangent) đang bão hòa khi nó nén các số thực trong phạm vi giữa :[-1,1]

nhập mô tả hình ảnh ở đây

(số liệu từ CS231n , Giấy phép MIT)


1
ah, tốt đẹp có ý nghĩa! Tôi biết đây không phải là câu hỏi ban đầu của tôi, nhưng tài sản đó quan trọng trong bối cảnh ML và CNN là gì?
Charlie Parker

Đối với ANN, để tránh việc có một đơn vị có đầu ra lớn ảnh hưởng quá nhiều đến lớp đầu ra của ANN.
Franck Dernoncourt

sự khác biệt giữa tan và sigmoid là gì? cả hai đều đè bẹp các con số trong một phạm vi kín! Tôi không hiểu nó, bạn có thể nói rõ hơn về vấn đề này không? Tôi là loại người xấu trong toán học. (nhân tiện tôi đến từ góc độ CNN)
Rika

@FranckDernoncourt Ý bạn là bão hòa cho chức năng kích hoạt tanh? Tôi đoán có một lỗi đánh máy? :)
CoderSpinoza

1
@tenCupMaximum: Để bão hòa có nghĩa là lấp đầy đến một điểm không thể thêm được nữa. Trong ngữ cảnh của hàm bão hòa, điều đó có nghĩa là sau một thời điểm nhất định, bất kỳ sự gia tăng nào nữa của đầu vào của hàm sẽ không còn gây ra sự gia tăng (có ý nghĩa) trong đầu ra của nó, mà gần như đã đạt đến giá trị tối đa của nó. Chức năng tại thời điểm đó là "tất cả đã được lấp đầy", có thể nói (hoặc bão hòa ).
Ruben van Bergen

0

Các chức năng kích hoạt phổ biến nhất là LOG và TanH. Các hàm này có phạm vi nhỏ gọn, nghĩa là chúng nén phản ứng thần kinh thành một tập hợp con giới hạn của các số thực. LOG nén các đầu vào thành đầu ra trong khoảng từ 0 đến 1, TAN H giữa -1 và 1. Các chức năng này hiển thị hành vi giới hạn ở các ranh giới.

Ở viền, độ dốc của đầu ra đối với đầu vào ∂yj / xj là rất nhỏ. Vì vậy, Gradient là nhỏ do đó các bước nhỏ để hội tụ do đó thời gian hội tụ lâu hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.