Tôi chọn chức năng kích hoạt cho lớp đầu ra tùy thuộc vào đầu ra mà tôi cần và các thuộc tính của chức năng kích hoạt mà tôi biết. Ví dụ: tôi chọn hàm sigmoid khi tôi xử lý các xác suất, ReLU khi tôi xử lý các giá trị dương và hàm tuyến tính khi tôi xử lý các giá trị chung.
Trong các lớp ẩn, tôi sử dụng ReLU bị rò rỉ để tránh các nơ-ron chết thay vì ReLU và tanh thay vì sigmoid. Tất nhiên, tôi không sử dụng hàm tuyến tính trong các đơn vị ẩn.
Tuy nhiên, sự lựa chọn cho chúng trong lớp ẩn hầu hết là do bản dùng thử và lỗi.
Có quy tắc nào về chức năng kích hoạt có khả năng hoạt động tốt trong một số tình huống không? Lấy các tình huống chung chung nhất có thể: có thể nói đến độ sâu của lớp, đến độ sâu của NN, đến số lượng tế bào thần kinh cho lớp đó, đến trình tối ưu hóa mà chúng ta đã chọn, về số lượng các tính năng đầu vào của lớp đó, để áp dụng NN này, v.v.
Trong câu trả lời của anh ấy / cô ấy , cantordust đề cập đến các chức năng kích hoạt khác mà tôi không đề cập đến, như ELU và SELU. Infos này được chào đón nhiều hơn. Tuy nhiên, càng nhiều chức năng kích hoạt tôi càng phát hiện ra rằng tôi càng bối rối trong việc lựa chọn chức năng sử dụng trong các lớp ẩn. Và tôi không nghĩ rằng lật một đồng xu là một cách tốt để chọn chức năng kích hoạt.