Tôi xin lỗi trước vì thực tế là tôi vẫn đang tăng tốc về vấn đề này. Tôi đang cố gắng tìm hiểu những ưu và nhược điểm của việc sử dụng tanh (ánh xạ -1 đến 1) so với sigmoid (ánh xạ 0 đến 1) cho chức năng kích hoạt nơ-ron của tôi. Từ đọc của tôi, nó có vẻ như là một điều nhỏ với sự khác biệt cận biên. Trong thực tế cho các vấn đề của tôi, tôi thấy rằng sigmoid dễ huấn luyện hơn và lạ thay, sigmoid xuất hiện để tìm giải pháp chung tốt hơn. Điều này có nghĩa là khi phiên bản sigmoid được đào tạo xong, nó sẽ thực hiện tốt trên tập dữ liệu tham chiếu (chưa được huấn luyện), trong đó phiên bản tanh dường như có thể có câu trả lời chính xác về dữ liệu huấn luyện trong khi tham chiếu kém. Điều này là cho kiến trúc mạng tương tự.
Một trực giác tôi có là với sigmoid, tế bào thần kinh dễ dàng tắt gần như hoàn toàn, do đó không cung cấp đầu vào cho các lớp tiếp theo. Các tanh có một thời gian khó khăn hơn ở đây vì nó cần phải hủy bỏ hoàn toàn đầu vào của nó, nếu không nó luôn mang lại một giá trị cho lớp tiếp theo. Có lẽ trực giác này là sai mặc dù.
Bài dài. Điểm mấu chốt, thương mại là gì, và nó có nên tạo ra sự khác biệt lớn?