Điều gì xảy ra khi tôi trộn các chức năng kích hoạt?

Có một số chức năng kích hoạt, chẳng hạn như ReLU, sigmoid hoặc . Điều gì xảy ra khi tôi trộn các chức năng kích hoạt? $\tanh$

Gần đây tôi phát hiện ra rằng Google đã phát triển chức năng kích hoạt Swish (x * sigmoid). Bằng cách thay đổi chức năng kích hoạt, nó có thể tăng độ chính xác cho vấn đề mạng thần kinh nhỏ như vấn đề XOR không?

— Công ty cổ phần
nguồn

Câu trả lời chung cho hành vi kết hợp các chức năng kích hoạt phổ biến là các quy tắc tính toán phải được áp dụng, cụ thể là tính toán vi phân, các kết quả phải thu được thông qua thử nghiệm để đảm bảo chất lượng của chức năng được lắp ráp và độ phức tạp bổ sung có khả năng tăng thời gian tính toán. Ngoại lệ cho sự gia tăng như vậy sẽ là khi gánh nặng tính toán của sự kết hợp nhỏ so với lợi thế hội tụ mà sự kết hợp mang lại.

Điều này dường như đúng với Swish, tên được đặt cho chức năng kích hoạt được xác định là

f (x) = x S (β x),

$f(x) = x \, \mathbb{S}(\beta x) \; \text{,}$

Trong đó là hàm kích hoạt Swish và là hàm sigmoid. Lưu ý rằng Swish không hoàn toàn là sự kết hợp của các chức năng kích hoạt. Nó được hình thành thông qua việc thêm một siêu tham số bên trong hàm sigmoid và phép nhân của đầu vào cho kết quả của hàm sigmoid. $f()$ $\mathbb{S}$ $\beta$

Nó dường như không được phát triển bởi Google. Bài viết được gửi ẩn danh ban đầu (để đánh giá mù đôi như một bài báo ICLR 2018), Tìm kiếm chức năng kích hoạt , được tác giả bởi Prajit Ramachandran, Barret Zoph và Quốc V. Le vào khoảng năm 2017. Đây là tuyên bố của họ.

Các thử nghiệm của chúng tôi cho thấy chức năng kích hoạt được phát hiện tốt nhất, ... Swish, ... có xu hướng hoạt động tốt hơn ReLU trên các mô hình sâu hơn trên một số bộ dữ liệu đầy thách thức.

Mọi thay đổi trong chức năng kích hoạt đối với bất kỳ một lớp nào, ngoại trừ trong trường hợp hiếm gặp về mặt thiên văn, độ chính xác tác động, độ tin cậy và hiệu quả tính toán. Cho dù sự thay đổi là đáng kể không thể được khái quát. Đó là lý do tại sao các ý tưởng mới được thử nghiệm dựa trên các tập dữ liệu thường được sử dụng để đánh giá mức độ hữu dụng ¹ .

Kết hợp các chức năng kích hoạt để hình thành các chức năng kích hoạt mới là không phổ biến. Chẳng hạn, AlexNet không kết hợp chúng. ² . Tuy nhiên, rất phổ biến để sử dụng các chức năng kích hoạt khác nhau trong các lớp khác nhau của một thiết kế mạng hiệu quả, duy nhất.

Chú thích

[1] Liệu những truyền thống này có tạo ra sự thiên vị hay không là một câu hỏi khác. Những người theo lý thuyết phân tích ca sử dụng được tiên phong bởi nhà khoa học máy tính người Thụy Điển Ivar Hjalmar Jacobson hoặc 6 Sigma sẽ nói rằng các thử nghiệm này là thử nghiệm đơn vị, không phải thử nghiệm chức năng đối với các trường hợp sử dụng trong thế giới thực và chúng có một điểm.

[2] Để khắc phục bất kỳ quan niệm sai lầm có thể phát sinh từ câu trả lời khác, AlexNet, tên được đặt cho các phương pháp được nêu trong ImageNet Phân loại với Deep Convolutional Neural Networks (2012) bởi Alex Krizhevsky, Ilya Sutskever, và Geoffrey E. Hinton từ Đại học Toronto, không liên quan đến việc kết hợp các chức năng kích hoạt để tạo thành các chức năng mới. Họ viết cái này.

Đầu ra của lớp được kết nối đầy đủ cuối cùng được cung cấp cho softmax 1000 chiều, tạo ra phân phối trên 1000 nhãn lớp.

...

Sự phi tuyến tính ReLU được áp dụng cho đầu ra của mọi lớp chập và được kết nối đầy đủ. Các lớp bên trong là ReLU thuần túy và lớp đầu ra là Softmax.

Ngoài ra còn có các hạt tích chập và các lớp gộp trong chuỗi các lớp của phương pháp AlexNet được sử dụng bởi chúng và thiết kế đã được sử dụng phổ biến kể từ khi họ giành chiến thắng trong cuộc thi ImageNet năm 2012. Các cách tiếp cận khác đã giành chiến thắng trong các cuộc thi tiếp theo.

— Douglas Daseeco
nguồn