Mạng thần kinh tái phát là gì?


12

Đáng ngạc nhiên là điều này không được hỏi trước đây - ít nhất là tôi đã không tìm thấy gì ngoài một số câu hỏi mơ hồ liên quan.

Vì vậy, một mạng lưới thần kinh tái phát là gì và lợi thế của chúng so với các NN thông thường là gì?


2
Vào những năm 1990, Mark W. Tilden đã giới thiệu máy đi bộ robot BEAM đầu tiên. Hệ thống này dựa trên nv-nơron là một mạng lưới thần kinh dao động. Tilden đã gọi các khái niệm là bicores, nhưng nó giống như một mạng lưới thần kinh tái phát. Giải thích công việc bên trong trong một vài câu là một chút phức tạp. Cách dễ dàng hơn để giới thiệu công nghệ là một mạng boolean tự trị. Mạng cổng logic này chứa một vòng phản hồi có nghĩa là hệ thống đang dao động. Trái ngược với cổng logic boolean, mạng nơ ron tái phát có nhiều tính năng hơn và có thể được đào tạo bằng thuật toán.
Manuel Rodriguez

1
bài đăng trên blog này có một lời giải thích tuyệt vời: colah.github.io/posts/2015-08-Under Hiểu
LSTMs

Câu trả lời:


6

Mạng thần kinh tái phát (RNNs) là một lớp kiến ​​trúc mạng thần kinh nhân tạo được lấy cảm hứng từ sự kết nối theo chu kỳ của các tế bào thần kinh trong não. Nó sử dụng các vòng lặp chức năng lặp để lưu trữ thông tin.

Sự khác biệt với các mạng thần kinh truyền thống sử dụng hình ảnh từ cuốn sách này :

nhập mô tả hình ảnh ở đây

Và, một RNN:

nhập mô tả hình ảnh ở đây

Lưu ý sự khác biệt - các kết nối của mạng nơ ron phản hồi không tạo thành chu kỳ. Nếu chúng ta thư giãn điều kiện này và cũng cho phép kết nối theo chu kỳ, chúng ta sẽ có được các mạng thần kinh tái phát (RNNs). Bạn có thể thấy rằng trong lớp ẩn của kiến ​​trúc.

Mặc dù sự khác biệt giữa một tri giác đa lớp và RNN có vẻ không đáng kể, nhưng những tác động đối với việc học theo trình tự là rất sâu rộng. MLP chỉ có thể ánh xạ từ các vectơ đầu vào sang đầu ra , trong khi RNN về nguyên tắc có thể ánh xạ từ toàn bộ lịch sử của các đầu vào trước đó đến từng đầu ra . Thật vậy, kết quả tương đương với lý thuyết gần đúng phổ quát cho MLP là một RNN với số lượng đơn vị ẩn đủ có thể xấp xỉ bất kỳ ánh xạ trình tự theo trình tự có thể đo lường nào đến độ chính xác tùy ý.

Điểm quan trọng

Các kết nối định kỳ cho phép 'bộ nhớ' của các đầu vào trước tồn tại ở trạng thái bên trong của mạng và do đó ảnh hưởng đến đầu ra của mạng.

Nói về mặt lợi thế là không phù hợp vì cả hai đều là công nghệ hiện đại và đặc biệt giỏi trong một số nhiệm vụ nhất định. Một danh mục rộng rãi của các nhiệm vụ mà RNN vượt trội là:

Ghi nhãn trình tự

Mục tiêu của ghi nhãn trình tự là gán các chuỗi nhãn, được vẽ từ một bảng chữ cái cố định, cho các chuỗi dữ liệu đầu vào.

Ví dụ: Phiên âm một chuỗi các tính năng âm thanh với các từ được nói (nhận dạng giọng nói) hoặc một chuỗi các khung hình video bằng cử chỉ tay (nhận dạng cử chỉ).

Một số tác vụ phụ trong ghi nhãn trình tự là:

Phân loại trình tự

Trình tự nhãn bị hạn chế có độ dài một. Điều này được gọi là phân loại trình tự, vì mỗi chuỗi đầu vào được gán cho một lớp duy nhất. Ví dụ về nhiệm vụ phân loại trình tự bao gồm việc xác định một tác phẩm nói duy nhất và nhận dạng một lá thư viết tay cá nhân.

Phân loại phân khúc

Phân loại phân đoạn đề cập đến các nhiệm vụ trong đó các chuỗi mục tiêu bao gồm nhiều nhãn, nhưng vị trí của các nhãn - nghĩa là vị trí của các phân đoạn đầu vào mà nhãn áp dụng - được biết trước.


Rất vui được trả lời cảm ơn! Tôi bắt đầu hối hận vì không theo học lớp lý thuyết Hệ thống và Điều khiển. Có vẻ như các công cụ hữu ích, các vòng phản hồi và tất cả những điều đó, để biết trong bối cảnh của NN.
olinarr

1
Chào mừng bạn Chúng chắc chắn là hữu ích.
ngây thơ

9

Một mạng lưới thần kinh tái phát (RNN) là một mạng lưới thần kinh nhân tạo có chứa lạc hậu hoặc tự kết nối, như trái ngược với chỉ có kết nối về phía trước, giống như trong một mạng lưới thần kinh feed-forward (FFNN). Do đó, tính từ "lặp lại" dùng để chỉ sự kết nối ngược hoặc tự kết nối này, tạo ra các vòng lặp trong các mạng này.

Một RNN có thể được đào tạo bằng cách truyền ngược qua thời gian (BBTT), sao cho các kết nối ngược hoặc tự kết nối này "ghi nhớ" các đầu vào đã thấy trước đó. Do đó, các kết nối này chủ yếu được sử dụng để theo dõi mối quan hệ tạm thời giữa các yếu tố của chuỗi đầu vào, điều này làm cho RNN phù hợp với dự đoán chuỗi và các nhiệm vụ tương tự.

Có một số mô hình RNN: ví dụ: RNN với các đơn vị LSTM hoặc GRU. LSTM (hoặc GRU) là một RNN có các đơn vị thực hiện một phép biến đổi phức tạp hơn một đơn vị trong "RNN đơn giản", thực hiện một phép biến đổi tuyến tính của đầu vào theo sau là ứng dụng hàm phi tuyến tính (ví dụ ReLU) Chuyển đổi tuyến tính. Về lý thuyết, "RNN đơn giản" cũng mạnh như RNN với các đơn vị LSTM. Trong thực tế, họ gặp phải vấn đề "biến mất và nổ tung gradient". Do đó, trong thực tế, các LSTM (hoặc các đơn vị lặp lại tinh vi tương tự) được sử dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.