Tại sao các chức năng kích hoạt phải đơn điệu?

Tôi hiện đang chuẩn bị cho một kỳ thi trên mạng lưới thần kinh. Trong một số giao thức từ các kỳ thi trước đây, tôi đọc được rằng các chức năng kích hoạt của các nơ-ron (trong các tri giác đa lớp) phải đơn điệu.

Tôi hiểu rằng các hàm kích hoạt phải khác biệt, có đạo hàm không bằng 0 trên hầu hết các điểm và không tuyến tính. Tôi không hiểu tại sao đơn điệu là quan trọng / hữu ích.

Tôi biết các chức năng kích hoạt sau đây và chúng là đơn điệu:

ReLU
Sigmoid
Tanh
Softmax: Tôi không chắc định nghĩa về tính đơn điệu có áp dụng cho các hàm với $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ $n, m > 1$
Softplus
(Danh tính)

Tuy nhiên, tôi vẫn không thể thấy bất kỳ lý do nào tại sao ví dụ . $\varphi(x) = x^2$

Tại sao các chức năng kích hoạt phải đơn điệu?

(Câu hỏi bên liên quan: có bất kỳ lý do nào khiến hàm logarit / hàm mũ không được sử dụng làm hàm kích hoạt không?)

machine-learning neural-network

— Martin Thoma
nguồn

FYI: Danh sách đầy đủ các chức năng kích hoạt trong các mạng thần kinh với ưu / nhược điểm

— Franck Dernoncourt 7/12/2015

@MartinThoma Bạn có chắc chắn softmax là đơn điệu?

— Truyền thông

Cảm ơn @Media. Để trả lời câu hỏi của bạn: Tôi không chắc "đơn điệu" thậm chí có nghĩa gì đối với các hàm trong với . Với softmax là hằng số và do đó đơn điệu. Nhưng không xác định cho các phần tử trong với Tôi không nghĩ đơn điệu có ý nghĩa gì.

f : R^{n} \to R^{m}

$f:R^n \rightarrow R^m$

m > 1

$m > 1$

m = 1

$m=1$

<

$<$

R^{n}

$R^n$

n > 1

$n>1$

— Martin Thoma

@MartinThoma Cảm ơn, thực ra đó cũng là một câu hỏi của tôi. Tôi không biết, và vẫn không biết, nếu có một phần mở rộng cho các chức năng đơn điệu với nhiều đầu ra. Toán học, bạn biết đấy!

— Truyền thông

Câu trả lời:

Tiêu chí đơn điệu giúp mạng lưới thần kinh hội tụ dễ dàng hơn thành một bộ phân loại chính xác hơn. Xem câu trả lời stackexchange và bài viết wikipedia này để biết thêm chi tiết và lý do.

Tuy nhiên, tiêu chí đơn điệu không bắt buộc đối với chức năng kích hoạt - Cũng có thể đào tạo mạng lưới thần kinh với các chức năng kích hoạt không đơn điệu. Nó chỉ trở nên khó khăn hơn để tối ưu hóa mạng lưới thần kinh. Xem câu trả lời của Yoshua Bengio .

— David Dao
nguồn

-1

Tôi sẽ cung cấp một lý do toán học hơn là tại sao một chức năng đơn điệu lại có ích!

Sử dụng http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentabilities-of-monotone-fun , giả sử chức năng kích hoạt của chúng tôi là đơn điệu, chúng tôi có thể nói rằng trên dòng thực, chức năng của chúng tôi sẽ là khác biệt Vì vậy, độ dốc của chức năng kích hoạt sẽ không phải là một chức năng thất thường. Sẽ dễ dàng hơn để tìm thấy cực tiểu mà chúng ta đang tìm kiếm. (tính toán không tốn kém)

Hàm số mũ và hàm số logarit là các hàm đẹp nhưng không bị giới hạn (Vì vậy, điều ngược lại của Định lý Lebesgue là không đúng vì Exp và Log là các hàm phân biệt không bị giới hạn trên đường thẳng thực). Vì vậy, họ thất bại khi chúng tôi muốn phân loại các ví dụ của chúng tôi ở giai đoạn cuối cùng. Sigmoid và tanh hoạt động thực sự tốt vì chúng có độ dốc dễ tính toán và phạm vi của chúng lần lượt là (0,1) và (-1,1).

— Rohit Rawat
nguồn

Có vô số các chức năng khác nhau, nhưng không đơn điệu. Vậy tại sao có một chức năng đơn điệu giúp?

— Martin Thoma