tanh so với sigmoid trong mạng lưới thần kinh

16

Tôi xin lỗi trước vì thực tế là tôi vẫn đang tăng tốc về vấn đề này. Tôi đang cố gắng tìm hiểu những ưu và nhược điểm của việc sử dụng tanh (ánh xạ -1 đến 1) so với sigmoid (ánh xạ 0 đến 1) cho chức năng kích hoạt nơ-ron của tôi. Từ đọc của tôi, nó có vẻ như là một điều nhỏ với sự khác biệt cận biên. Trong thực tế cho các vấn đề của tôi, tôi thấy rằng sigmoid dễ huấn luyện hơn và lạ thay, sigmoid xuất hiện để tìm giải pháp chung tốt hơn. Điều này có nghĩa là khi phiên bản sigmoid được đào tạo xong, nó sẽ thực hiện tốt trên tập dữ liệu tham chiếu (chưa được huấn luyện), trong đó phiên bản tanh dường như có thể có câu trả lời chính xác về dữ liệu huấn luyện trong khi tham chiếu kém. Điều này là cho kiến trúc mạng tương tự.

Một trực giác tôi có là với sigmoid, tế bào thần kinh dễ dàng tắt gần như hoàn toàn, do đó không cung cấp đầu vào cho các lớp tiếp theo. Các tanh có một thời gian khó khăn hơn ở đây vì nó cần phải hủy bỏ hoàn toàn đầu vào của nó, nếu không nó luôn mang lại một giá trị cho lớp tiếp theo. Có lẽ trực giác này là sai mặc dù.

Bài dài. Điểm mấu chốt, thương mại là gì, và nó có nên tạo ra sự khác biệt lớn?

neural-networks

— Chó ngao
nguồn

23

Trong cuốn sách "Mạng lưới thần kinh: Nền tảng toàn diện" của Symon Haykin, có lời giải thích sau đây mà tôi trích dẫn:

Để giảm thiểu thời gian học tập, nên tránh sử dụng các đầu vào trung bình khác không. Bây giờ, trong trường hợp như vectơ tín hiệu được áp dụng cho nơ ron trong lớp ẩn đầu tiên của một tri giác đa lớp có liên quan, có thể dễ dàng loại bỏ giá trị trung bình từ mỗi phần tử của trước khi ứng dụng vào mạng. Nhưng những gì về các tín hiệu được áp dụng cho các tế bào thần kinh trong các lớp đầu ra và ẩn còn lại của mạng? Câu trả lời cho câu hỏi này nằm ở loại chức năng kích hoạt được sử dụng trong mạng. Nếu chức năng kích hoạt là không đối xứng, như trong trường hợp chức năng sigmoid, đầu ra của mỗi nơron được giới hạn trong khoảng . Một lựa chọn như vậy giới thiệu một nguồn sai lệch có hệ thống $\bf x$ $\bf x$ $[0,1]$ cho những tế bào thần kinh nằm ngoài lớp đầu tiên của mạng. Để khắc phục vấn đề này, chúng ta cần sử dụng hàm kích hoạt đối xứng như hàm tiếp tuyến hyperbol. Với lựa chọn thứ hai này, đầu ra của mỗi nơ ron được phép giả sử cả hai giá trị dương và âm trong khoảng , trong trường hợp đó có khả năng giá trị của nó bằng không. Nếu kết nối mạng lớn, học lan truyền ngược với các chức năng kích hoạt đối xứng có thể mang lại tốc độ hội tụ nhanh hơn so với quy trình tương tự với các chức năng kích hoạt không đối xứng, cũng có bằng chứng thực nghiệm (LeCun et al. 1991). $[-1,1]$

Tài liệu tham khảo được trích dẫn là:

Y. LeCun, I. Kanter và SASolla: "Thuộc tính bậc hai của các bề mặt lỗi: thời gian học và khái quát hóa", Những tiến bộ trong Hệ thống xử lý thông tin thần kinh, tập. 3, trang 918-924, 1991.

Một tài liệu tham khảo thú vị khác như sau:

Y. LeCun, L. Bottou, G. Orr và K. Muller: " BackProp hiệu quả ", trong Orr, G. và Muller K. (Eds), Mạng lưới thần kinh: Thủ thuật của thương mại, Springer, 1998

— tiagotvv
nguồn

Các tế bào thần kinh ReLU dường như hoạt động khá tốt mặc dù thiên vị của chúng. Bạn có bất cứ suy nghĩ về điều đó?

— Ark-kun

@ Ark-kun, tôi không biết nhiều về tế bào thần kinh ReLU nhưng tôi có thể giới thiệu cho bạn bài báo này nơi các tác giả giải thích những lợi thế của chức năng kích hoạt đó. X. Glorot, A. Bordes và Y. Bengio "Mạng lưới thần kinh chỉnh lưu thưa thớt AISTATS 2011. jmlr.org/proceedings/ con / v15 / glorot11a / glorot11a.pdf

— tiagotvv

1

Hai chức năng kích hoạt này rất giống nhau, nhưng được bù đắp. Mạng ban đầu của tôi không có điều khoản thiên vị. Kể từ khi thêm thành kiến, mọi thứ ổn định hơn nhiều. Dựa trên kinh nghiệm của tôi, tôi muốn nói cái này hay cái kia có thể hoạt động tốt hơn cho một ứng dụng cụ thể vì những lý do phức tạp, có thể không biết, nhưng cách tiếp cận đúng là bao gồm các thuật ngữ sai lệch để sự phụ thuộc vào bù trừ kích hoạt có thể được giảm bớt hoặc loại bỏ.

— Chó ngao
nguồn

0

$\tanh$

L = = - \frac{1}{n} \underset{Tôi}{Σ} (y_{Tôi} đăng nhập (p_{Tôi}) + (1 - y_{Tôi}) đăng nhập (1 - p_{Tôi}))

${\cal L} = -\frac{1}{n} \sum_{i} \left(y_i \log(p_i) + (1 - y_i) \log(1-p_i)\right)$

$y_i$ $i$ $p_i$ $i$

$p_i$ $\tanh$

— Andre Holzner
nguồn

Bạn có thể mở rộng chúng, mặc dù. tanh (X) -1 chia sẻ công cụ phái sinh và không gặp vấn đề về nhật ký tiêu cực

— Pablo Arnau González