Chuẩn hóa đầu vào cho các nơ-ron ReLU


9

Theo "Backprop hiệu quả" của LeCun et al (1998) , tốt hơn hết là bình thường hóa tất cả các đầu vào sao cho chúng tập trung quanh 0 và nằm trong phạm vi của đạo hàm bậc hai tối đa. Vì vậy, ví dụ, chúng tôi sẽ sử dụng [-0,5,0,5] cho chức năng "Tanh". Điều này là để giúp tiến trình lan truyền trở lại khi Hessian trở nên ổn định hơn.

Tuy nhiên, tôi không chắc phải làm gì với các nơ-ron chỉnh lưu là tối đa (0, x). (Ngoài ra với chức năng logistic kể từ đó, chúng tôi sẽ muốn một cái gì đó như [0.1,0.9] tuy nhiên đó không phải là trung tâm xung quanh 0)

Câu trả lời:


7

Theo hiểu biết tốt nhất của tôi, điều gần gũi nhất với những gì bạn có thể đang tìm kiếm là bài viết gần đây của các nhà nghiên cứu của Google: Batch bình thường hóa: Tăng tốc đào tạo mạng sâu bằng cách giảm dịch chuyển đồng biến nội bộ .

Chuẩn hóa hàng loạt

Hãy xem xét một lớp 's đầu ra kích hoạt nơi là phi tuyến (ReLU, tanh, vv), là các trọng số và những thành kiến tương ứng và là minibatch dữ liệu.lyl=f(Wx+b)fW,bx

Những gì Batch bình thường hóa (BN) làm như sau:

  1. Chuẩn hóa để có giá trị trung bình bằng 0 và phương sai một. Chúng tôi làm điều đó trên xe buýt nhỏ. Đặt biểu thị các giá trị kích hoạt trung gian được tiêu chuẩn hóa, tức là là phiên bản chuẩn hóa của .Wx+bx^x^Wx+b
  2. Áp dụng một phép biến đổi affine được tham số hóa (có thể học được)x^γx^+β.
  3. Áp dụng tính phi tuyến: .y^l=f(γx^+β)

Vì vậy, BN chuẩn hóa các đầu ra kích hoạt "thô" (đọc: trước khi chúng ta áp dụng các đầu ra kích hoạt phi tuyến) để có giá trị trung bình bằng 0, phương sai 1, và sau đó chúng ta áp dụng một phép biến đổi affine đã học, và cuối cùng chúng ta áp dụng tính phi tuyến. Trong một số ý nghĩa, chúng tôi có thể giải thích điều này như cho phép mạng nơ ron tìm hiểu phân phối đầu vào được tham số hóa phù hợp cho tính phi tuyến.

Vì mọi hoạt động đều khác nhau, chúng tôi có thể tìm hiểu các tham số thông qua truyền ngược.γ,β

Động lực chuyển đổi affine

Nếu chúng ta không thực hiện chuyển đổi affine được tham số hóa, mọi phi tuyến sẽ có phân phối đầu vào là phân phối trung bình 0 và phương sai 1. Điều này có thể hoặc không thể là tối ưu. Lưu ý rằng nếu phân phối đầu vào trung bình bằng 0, phương sai 1 là tối ưu, thì về mặt lý thuyết, phép biến đổi affine có thể phục hồi nó bằng cách đặt bằng giá trị trung bình của lô và bằng độ lệch chuẩn của lô. Có phép chuyển đổi affine được tham số hóa này cũng có thêm phần thưởng là tăng khả năng đại diện của mạng (các tham số dễ học hơn).βγ

Tiêu chuẩn hóa đầu tiên

Tại sao phải chuẩn hóa trước? Tại sao không chỉ áp dụng chuyển đổi affine? Về mặt lý thuyết, không có sự phân biệt. Tuy nhiên, có thể có một vấn đề điều hòa ở đây. Bằng cách đầu tiên chuẩn hóa các giá trị kích hoạt, có lẽ việc tìm hiểu các tham số tối ưu sẽ trở nên dễ dàng hơn . Đây hoàn toàn là phỏng đoán của tôi, nhưng đã có những sự tương tự tương tự trong các trạng thái gần đây khác của kiến ​​trúc mạng lưới nghệ thuật. Ví dụ: trong báo cáo kỹ thuật gần đây của Microsoft Research, Deep Resid Learning Learning for Image Recognitionγ,β, thực tế, họ đã học được một phép biến đổi trong đó họ sử dụng phép biến đổi danh tính làm tham chiếu hoặc đường cơ sở để so sánh. Các đồng tác giả của Microsoft tin rằng việc có tài liệu tham khảo hoặc đường cơ sở này đã giúp giải quyết vấn đề trước. Tôi không tin rằng nó quá xa vời để tự hỏi liệu điều gì đó tương tự đang xảy ra ở đây với BN và bước chuẩn hóa ban đầu.

Ứng dụng BN

Một kết quả đặc biệt thú vị là bằng cách sử dụng Batch bình thường hóa, nhóm Google đã có thể có được một mạng Inception tanh để đào tạo trên ImageNet và nhận được kết quả khá cạnh tranh. Tanh là một phi tuyến bão hòa và rất khó để có được các loại mạng này để tìm hiểu do vấn đề độ dốc bão hòa / biến mất của chúng. Tuy nhiên, bằng cách sử dụng Batch Chuẩn hóa, người ta có thể giả định rằng mạng có thể tìm hiểu một phép biến đổi ánh xạ các giá trị đầu ra kích hoạt thành chế độ không bão hòa của phi tuyến tanh.

Ghi chú cuối cùng

Họ thậm chí còn tham khảo cùng một Yann LeCun factoid mà bạn đề cập như là động lực cho Batch bình thường hóa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.