Liệu chuẩn hóa hàng loạt có nghĩa là sigmoids hoạt động tốt hơn ReLUs?


9

Chuẩn hóa hàng loạt và ReLUs đều là giải pháp cho vấn đề độ dốc biến mất. Nếu chúng ta đang sử dụng chuẩn hóa hàng loạt, thì chúng ta có nên sử dụng sigmoids không? Hoặc có những tính năng nào của ReLU khiến chúng đáng giá ngay cả khi sử dụng batchnorm?

Tôi cho rằng việc chuẩn hóa được thực hiện trong batchnorm sẽ không kích hoạt âm. Điều đó có nghĩa là batchnorm giải quyết vấn đề "ReLU chết"?

Nhưng bản chất liên tục của tanh và logistic vẫn hấp dẫn. Nếu tôi đang sử dụng batchnorm, tanh có hoạt động tốt hơn ReLU không?

Tôi chắc chắn rằng câu trả lời phụ thuộc . Vì vậy, những gì đã làm việc trong kinh nghiệm của bạn, và các tính năng nổi bật của ứng dụng của bạn là gì?


Ngay cả khi bài báo đề nghị sử dụng BatchNorm trước khi kích hoạt, nó đã được tìm thấy trong thực tế rằng các giải pháp tốt hơn sẽ mang lại hiệu quả nếu BN được áp dụng sau. Nếu tôi không bỏ qua điều gì đó có nghĩa, thì trong trường hợp sau, BN không có tác dụng gì trong việc kích hoạt. Nhưng tất nhiên, đó là một câu hỏi mở, nếu BN sẽ hoạt động tốt hơn khi được áp dụng trước đó và với một kích hoạt khác so với ReLU. Theo tôi, không. Bởi vì ReLU vẫn có những lợi thế khác, chẳng hạn như một dẫn xuất đơn giản hơn. Nhưng tôi cũng tò mò. Có lẽ ai đó đã có kinh nghiệm trong lĩnh vực này.
oezguensi

Câu trả lời:


1

Xem, khái niệm cơ bản đằng sau việc chuẩn hóa hàng loạt là thế (trích từ một bài báo Trung bình) -

Chúng tôi bình thường hóa lớp đầu vào của chúng tôi bằng cách điều chỉnh và nhân rộng các kích hoạt. Ví dụ: khi chúng ta có các tính năng từ 0 đến 1 và một số từ 1 đến 1000, chúng ta nên bình thường hóa chúng để tăng tốc độ học tập. Nếu lớp đầu vào được hưởng lợi từ nó, tại sao không làm điều tương tự với các giá trị trong các lớp ẩn, luôn thay đổi và cải thiện tốc độ đào tạo từ 10 lần trở lên.

Đọc bài viết ở đây.

Đây là lý do tại sao chúng tôi sử dụng Batch-normalization. Bây giờ đến câu hỏi của bạn, hãy xem đầu ra của sigmoid là các ràng buộc giữa 0 và 1, và phương châm của Batch-normalization là gì. Nếu chúng ta sử dụng Bach-normalization với kích hoạt sigmoid, thì nó sẽ bị ràng buộc giữa sigmoid (0) thành sigmoid (1), đó là từ 0,5 đến 0,73 ~ . Nhưng nếu chúng ta sử dụng ReLU với Batch-normalization thì đầu ra sẽ được trải đều từ 0 đến 1, đó là điều tốt cho chúng ta cuối cùng, chúng ta muốn đầu ra đa dạng nhất có thể. Vì vậy, tôi nghĩ ReLU sẽ là lựa chọn tốt nhất trong số các kích hoạt khác.frmộtc1/(1+1/e)


0

madman đã trả lời chính xác câu hỏi của bạn về việc chuẩn hóa hàng loạt một cách chính xác và để tôi trả lời phần thứ hai của bạn rằng làm thế nào các chức năng liên tục có vẻ hấp dẫn nhưng relu tốt hơn tất cả chúng và tuyên bố này không phải từ phía MR của tôi. Hinton đã trích dẫn rằng "chúng tôi là những người câm đã sử dụng sigmoid như một chức năng kích hoạt và phải mất 30 năm để nhận ra rằng không hiểu hình thức của nó, nó sẽ không bao giờ để tế bào thần kinh của bạn đi vào trạng thái luôn luôn bão hòa vì vậy nó là dẫn xuất và anh ta tự gọi mình và tất cả những người khác chết lặng ". Vì vậy, việc chọn một chức năng kích hoạt chỉ vì nó liên tục và không nhìn vào việc nó sẽ ảnh hưởng đến tế bào thần kinh của bạn như thế nào '

Lưu ý: Nếu bạn đang nghiên cứu mạng lưới thần kinh, tôi khuyên bạn nên nghĩ rằng mạng lưới thần kinh là các hàm tổng hợp lớn và sâu để hiểu những gì hoạt động và tại sao nó hoạt động, bạn cần hiểu làm thế nào một mạng lưới thần kinh tạo ra một đa dạng dữ liệu ở một chiều cao hơn "Dữ liệu đó trong đó mức độ tốt của đa tạp phụ thuộc vào sự lựa chọn chức năng của bạn và cách một chức năng biến đổi đầu ra của các chức năng khác khi được cung cấp cho nó làm đầu vào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.