Lớp ReLU có hoạt động tốt cho mạng nông không?


7

Tôi hiện đang làm việc để đào tạo một mạng lưới thần kinh 5 lớp và tôi gặp một số vấn đề với lớp tanh và muốn thử lớp ReLU. Nhưng tôi thấy rằng nó trở nên tồi tệ hơn đối với lớp ReLU. Tôi tự hỏi liệu có phải do tôi không tìm thấy các thông số tốt nhất hay đơn giản vì ReLU chỉ tốt cho các mạng sâu?

Cảm ơn!


1
theo như tôi biết từ tài liệu DNN, các mạng ReLu là các kích hoạt chiếm ưu thế nhất, đặc biệt đối với các mạng sâu vì chúng hiếm khi gặp sự cố biến mất / phát nổ khi đào tạo.
Charlie Parker

2
Mạng lưới thần kinh 5 lớp thường không được coi là nông. Nông thường được dành riêng cho lớp đơn.
Charlie Parker

Câu trả lời:


6

Thay đổi chức năng kích hoạt tương tác với tất cả các lựa chọn cấu hình khác mà bạn đã thực hiện, từ phương thức khởi tạo đến các tham số chính quy. Bạn sẽ phải điều chỉnh lại mạng.


3

Khi bạn thay thế sigmoid hoặc tanh bằng ReLU, thông thường bạn cũng sẽ cần:

  1. Giảm đáng kể tỷ lệ học tập của bạn, thường là 1/100. Điều này là do đầu ra ReLU tăng trưởng mà không bị ràng buộc và ít có khả năng chống lại tỷ lệ học tập cao.
  2. Tăng số lượng tham số (tức là trọng lượng) khoảng 2 lần trở lên. Điều này là do vấn đề relu chết.
  3. Bạn có thể phải tăng số lượng kỷ nguyên do chỉ số LR thấp hơn nhiều.
  4. Thông thường bạn sẽ cần phương thức khởi tạo tốt hơn so với init ngẫu nhiên, chẳng hạn như init Glorot hoặc He init. Nhiều lần bạn có thể nhận được mà không có điều này nhưng với chi phí hội tụ chậm hơn nhiều.
  5. Rất có khả năng bạn cũng sẽ cần thường xuyên hóa mạnh hơn như bỏ học, một lần nữa vì số lượng tham số lớn hơn và số lượng kỷ nguyên tăng lên.

Vì vậy, tóm lại, mọi thứ không đơn giản như trao đổi sigmoid / tanh với ReLU. Ngay khi bạn thêm ReLU, bạn cần các thay đổi ở trên để bù cho các hiệu ứng khác.


có lẽ bạn có thể cần nhiều lớp mạng thần kinh hơn, cộng với số lượng dữ liệu đầu vào lớn hơn? Ví dụ: anh chàng này có vấn đề về hội tụ với mạng nông (2 lớp): stats.stackexchange.com/questions/284203/ trộm
Peter Teoh

2

ReLU tức là sửa chữa tuyến tính đơn vịtanh cả hai đều là hàm kích hoạt phi tuyến tính áp dụng cho lớp thần kinh. Cả hai đều có tầm quan trọng riêng của họ. Nó chỉ phụ thuộc vào vấn đề trong tay mà chúng tôi muốn giải quyết và đầu ra mà chúng tôi muốn. Đôi khi mọi người thích sử dụng ReLU hơn tanh vì ReLU liên quan đến việc tính toán ít hơn .

Khi tôi bắt đầu học Deep Learning, tôi đã có câu hỏi Tại sao chúng ta không chỉ sử dụng chức năng kích hoạt tuyến tính thay vì phi tuyến tính ? Trả lời là đầu ra sẽ chỉ là sự kết hợp tuyến tính của đầu vàolớp ẩn sẽ không có tác dụng và vì vậy lớp ẩn sẽ không thể học được tính năng quan trọng.

Ví dụ: nếu chúng ta muốn đầu ra nằm trong (-1,1) thì chúng ta cần tanh . Nếu chúng ta cần đầu ra giữa (0,1) thì sử dụng hàm sigmoid . Trong trường hợp ReLU, nó sẽ cung cấp tối đa {0, x} . Có nhiều chức năng kích hoạt khác như ReLU bị rò rỉ. nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Bây giờ để chọn chức năng kích hoạt phù hợp cho mục đích của chúng tôi để mang lại kết quả tốt hơn, đó chỉ là vấn đề thử nghiệm và thực hành được gọi là điều chỉnh trong thế giới khoa học dữ liệu.

Trong trường hợp của bạn, bạn có thể cần điều chỉnh tham số được gọi là điều chỉnh tham số như số lượng nơ-ron trong các lớp ẩn, số lớp, v.v.

Lớp ReLU có hoạt động tốt cho mạng nông không?

Vâng, tất nhiên lớp ReLU hoạt động tốt cho một mạng nông.


0

Tôi tự hỏi liệu có phải do tôi không tìm thấy các thông số tốt nhất hay đơn giản vì ReLU chỉ tốt cho các mạng sâu?

Tôi tin rằng tôi có thể giả định một cách an toàn rằng bạn có nghĩa là siêu đường kính thay vì tham số.

Một mạng lưới thần kinh với 5 lớp ẩn không nông. Bạn có thể xem xét nó sâu sắc.

Tìm kiếm không gian siêu tham số cho siêu đường kính 'tốt nhất' là một nhiệm vụ không bao giờ kết thúc. Theo cách tốt nhất, tôi có nghĩa là các siêu đường kính cho phép mạng đạt được cực tiểu toàn cầu.

Tôi đồng ý với Sycorax rằng một khi bạn thay đổi chức năng kích hoạt, bạn cần điều chỉnh lại mạng. Thông thường, người ta có thể đạt được hiệu suất tương đương trên nhiều cấu hình khác nhau của hyperparam cho cùng một nhiệm vụ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.