chức năng kích hoạt tanh vs chức năng kích hoạt sigmoid


82

Hàm kích hoạt tanh là:

tanh(x)=2σ(2x)1

Trong đó , hàm sigmoid, được định nghĩa là: .σ ( x ) = e xσ(x)

σ(x)=ex1+ex

Câu hỏi:

  • Có thực sự quan trọng giữa việc sử dụng hai chức năng kích hoạt (tanh so với sigma) không?
  • Chức năng nào tốt hơn trong trường hợp nào?

12
tanh(x)=2σ(2x)1
Roman Shapovalov

Mạng lưới thần kinh sâu đã di chuyển trên. Ưu tiên hiện tại là chức năng RELU.
Paul Nord

7
@PaulNord Cả tanh và sigmoids vẫn được sử dụng cùng với các kích hoạt khác như RELU, tùy thuộc vào những gì bạn đang cố gắng thực hiện.
Tahlor

Câu trả lời:


80

Vâng, nó quan trọng vì lý do kỹ thuật. Về cơ bản để tối ưu hóa. Rất đáng để đọc Backprop hiệu quả của LeCun et al.

Có hai lý do cho lựa chọn đó (giả sử bạn đã bình thường hóa dữ liệu của mình và điều này rất quan trọng):

  1. Có độ dốc mạnh hơn: vì dữ liệu được tập trung quanh 0, các đạo hàm cao hơn. Để thấy điều này, hãy tính đạo hàm của hàm tanh và lưu ý rằng phạm vi của nó (giá trị đầu ra) là [0,1].

Phạm vi của hàm tanh là [-1,1] và của hàm sigmoid là [0,1]

  1. Tránh sai lệch trong độ dốc. Điều này được giải thích rất tốt trong bài báo, và đáng để đọc nó để hiểu những vấn đề này.

Tôi có nghi ngờ nhỏ trong bài báo mà bạn đề xuất. Trong trang 14, "Khi MLP có chung trọng số (ví dụ: Lưới kết hợp), tốc độ học tập nên được chọn theo cách sao cho tỷ lệ căn bậc hai của các kết nối chia sẻ trọng số." Bạn có thể vui lòng giải thích tại sao?
satya

câu hỏi này đã được trả lời ở đây stats.stackexchange.com/questions/47590/ trên
jpmuc

1
Đó là một câu hỏi rất chung chung. Câu chuyện dài ngắn: hàm chi phí xác định mạng lưới thần kinh nên làm gì: phân loại hoặc hồi quy và làm thế nào. Nếu bạn có thể nhận được một bản sao "Mạng nơ-ron để nhận dạng mẫu" của Christopher Bishop thì thật tuyệt. Ngoài ra "Machine Learning" của Mitchell cung cấp cho bạn một lời giải thích tốt ở cấp độ cơ bản hơn.
jpmuc

1
Tôi xin lỗi, Satya, tôi thường khá bận rộn trong tuần. Làm thế nào để bạn bình thường hóa dữ liệu của bạn chính xác? vi.wikipedia.org/wiki/Whitening_transatures Tôi không thực sự chắc chắn vấn đề của bạn có thể là gì. Cách dễ nhất là trừ trung bình và sau đó cân bằng với ma trận hiệp phương sai. Bằng chứng bạn cần thêm một số thành phần cho tần số cao (xem biến đổi ZCA trong tài liệu tham khảo ở trên)
jpmuc

1
Cảm ơn rất nhiều juampa. Bạn đang thực sự giúp tôi rất nhiều. Đề nghị đọc là rất tốt. Tôi thực sự đang làm một dự án về khai thác dữ liệu khí hậu. 50% tính năng đầu vào của tôi là nhiệt độ (phạm vi 200K-310K) và 50% tính năng đầu vào của tôi là giá trị áp suất (phạm vi 50000pa đến 100000pa). Tôi đang làm trắng. Trước pca, có cần phải bình thường hóa nó không ... Nếu có, tôi nên bình thường hóa nó như thế nào? Tôi nên bình thường hóa trước khi trừ bằng trung bình hoặc sau khi trừ bằng trung bình? Tôi đang nhận được kết quả khác nhau nếu tôi bình thường hóa bằng các phương pháp khác nhau ...
satya

32

Cảm ơn rất nhiều @jpmuc! Lấy cảm hứng từ câu trả lời của bạn, tôi đã tính toán và vẽ đồ thị của hàm tanh và hàm sigmoid tiêu chuẩn một cách riêng biệt. Tôi muốn chia sẻ với tất cả các bạn. Đây là những gì tôi nhận được. Đây là đạo hàm của hàm tanh. Đối với đầu vào giữa [-1,1], chúng tôi có đạo hàm giữa [0,42, 1]. nhập mô tả hình ảnh ở đây

Đây là đạo hàm của hàm sigmoid chuẩn f (x) = 1 / (1 + exp (-x)). Đối với đầu vào giữa [0,1], chúng ta có đạo hàm giữa [0,20, 0,25]. nhập mô tả hình ảnh ở đây

Rõ ràng hàm tanh cung cấp độ dốc mạnh hơn.


6
Một cách khác để xem xét điều này là (2x) giống với (x), nhưng với độ căng ngang được áp dụng, hệ số tỷ lệ 1/2 (nghĩa là cùng một biểu đồ nhưng với mọi thứ bị đè lên theo trục y). Khi bạn
đè

2
Tôi không thấy lý do tại sao điều này sẽ làm cho bất kỳ sự khác biệt. Tỷ lệ và độ lõm sẽ là ngẫu nhiên cho mỗi nút và (với độ lệch và trọng số trên đầu vào và đầu ra) cả hai sẽ là các xấp xỉ phổ quát, hội tụ đến cùng một kết quả.
endolith
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.