Tôi đã đọc ở nơi khác rằng lựa chọn chức năng kích hoạt lớp ẩn trong NN phải dựa trên nhu cầu của một người , tức là nếu bạn cần các giá trị trong phạm vi -1 đến 1, hãy sử dụng tanh và sử dụng sigmoid cho phạm vi 0 đến 1.
Câu hỏi của tôi là làm thế nào để biết người ta cần gì? Có phải nó dựa trên phạm vi của lớp đầu vào, ví dụ: sử dụng hàm có thể bao gồm toàn bộ phạm vi giá trị của lớp đầu vào hoặc bằng cách nào đó phản ánh phân phối của lớp đầu vào (hàm Gaussian)? Hoặc là vấn đề cần thiết / tên miền cụ thể và kinh nghiệm / phán đoán của một người là cần thiết để đưa ra lựa chọn này? Hoặc chỉ đơn giản là "sử dụng mà đưa ra lỗi đào tạo tối thiểu được xác thực chéo tốt nhất?"
1 + (1 / exp(-sum))
. Làm cho nhu cầu rất khó hiểu mà không cần thử cả hai trên mỗi bộ dữ liệu. Các nhu cầu như bạn mô tả nó ở đây được gắn với mối quan hệ thực tế được học, tức là một bộ dữ liệu nhị phân sẽ học nhanh hơn hay không ở tất cả các kích hoạt khác nhau nhất định.