Sự khác biệt giữa tiếp tuyến hyperbolic và tế bào thần kinh sigmoid là gì?


8

Hai hàm kích hoạt phổ biến được sử dụng trong học sâu là hàm tiếp tuyến hyperbol và hàm kích hoạt sigmoid. Tôi hiểu rằng tiếp tuyến hyperbol chỉ là một sự thay đổi kích thước và dịch của hàm sigmoid:

tanh(z)=2σ(z)1 .

Có sự khác biệt đáng kể giữa hai chức năng kích hoạt này và đặc biệt, khi nào thì cái này thích hợp hơn cái kia ?

Tôi nhận thấy rằng trong một số trường hợp (như khi ước tính xác suất), các đầu ra trong phạm vi sẽ thuận tiện hơn các đầu ra trong phạm vi từ . Tôi muốn biết nếu có sự khác biệt ngoài sự tiện lợi phân biệt hai chức năng kích hoạt.[0,1][1,1]

Câu trả lời:


3

Tôi không nghĩ sẽ hợp lý khi quyết định các chức năng kích hoạt dựa trên các thuộc tính mong muốn của đầu ra; bạn có thể dễ dàng chèn một bước hiệu chỉnh ánh xạ 'điểm số mạng thần kinh' vào bất kỳ đơn vị nào bạn thực sự muốn sử dụng (đô la, xác suất, v.v.).

Vì vậy, tôi nghĩ rằng ưu tiên giữa các chức năng kích hoạt khác nhau chủ yếu tập trung vào các thuộc tính khác nhau của các chức năng kích hoạt đó (như việc chúng có liên tục khác nhau hay không). Bởi vì chỉ có một sự chuyển đổi tuyến tính giữa hai người, tôi nghĩ điều đó có nghĩa là không có sự khác biệt có ý nghĩa giữa chúng.


2

Sigmoid> Hyperbolic tiếp tuyến:

Như bạn đã đề cập, ứng dụng Sigmoid có thể thuận tiện hơn tiếp tuyến hyperbol trong các trường hợp chúng ta cần một giá trị xác suất ở đầu ra (như @ matthew-graves nói, chúng ta có thể khắc phục điều này bằng bước hiệu chỉnh / ánh xạ đơn giản). Trong các lớp khác, điều này không có ý nghĩa.

Tiếp tuyến Hyperbolic> Sigmoid:

tanh(0)=0tanh(0)=1tanh(z)z=0σ(0)=0.5σ(0)=0.25hình sin ) cho phép mạng học hiệu quả ngay cả khi trọng lượng của nó được khởi tạo với các giá trị nhỏ. Trong các trường hợp khác (ví dụ SigmoidReLU ) các giá trị ban đầu nhỏ này có thể có vấn đề.

Đọc thêm:

Khởi tạo ngẫu nhiên đi bộ để đào tạo Mạng lưới phản hồi rất sâu

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.