Mạng nơ-ron: Tôi có thể sử dụng cả sigmoid và tanh làm chức năng kích hoạt không?

Trong một kiến trúc mạng thần kinh, tôi có thể sử dụng hàm sigmoid trong một số lớp và hàm tanh trong các lớp khác không? Nó có phải là một lựa chọn tốt?

neural-network

— Voxis
nguồn

Có vẻ như một số người thực sự hợp nhất các lớp của từng loại: github.com/usernaamee/keras-wavenet/blob/master/ trên .

— Ian Fiske

Có bạn có thể. Không có quy tắc cứng nào chống lại việc có các chức năng kích hoạt khác nhau trong bất kỳ lớp nào và việc kết hợp hai loại này sẽ không gây khó khăn về số.

Trong thực tế, nó có thể là một lựa chọn tốt để có tanh trong các lớp ẩn và sigmoid ở lớp cuối cùng, nếu mục tiêu của bạn là dự đoán thành viên của một lớp duy nhất hoặc xác suất nhiều lớp không độc quyền. Đầu ra sigmoid cho vay chính xác để dự đoán một xác suất độc lập (sử dụng hàm mục tiêu logloss (còn gọi là entropy chéo)).

Có hay không tốt hơn việc sử dụng sigmoid trên tất cả các lớp sẽ phụ thuộc vào các tính năng khác của mạng của bạn, dữ liệu và vấn đề bạn đang cố gắng giải quyết. Thông thường cách tốt nhất để tìm ra cái nào tốt hơn - ít nhất là về độ chính xác - là thử một số biến thể và xem điểm nào tốt nhất trên tập dữ liệu xác thực chéo. Theo kinh nghiệm của tôi, thường có một sự khác biệt nhỏ giữa việc sử dụng tanh hoặc sigmoid trong các lớp ẩn.

— Neil Slater
nguồn