Đáng ngạc nhiên là điều này không được hỏi trước đây - ít nhất là tôi đã không tìm thấy gì ngoài một số câu hỏi mơ hồ liên quan.
Vì vậy, một mạng lưới thần kinh tái phát là gì và lợi thế của chúng so với các NN thông thường là gì?
Đáng ngạc nhiên là điều này không được hỏi trước đây - ít nhất là tôi đã không tìm thấy gì ngoài một số câu hỏi mơ hồ liên quan.
Vì vậy, một mạng lưới thần kinh tái phát là gì và lợi thế của chúng so với các NN thông thường là gì?
Câu trả lời:
Mạng thần kinh tái phát (RNNs) là một lớp kiến trúc mạng thần kinh nhân tạo được lấy cảm hứng từ sự kết nối theo chu kỳ của các tế bào thần kinh trong não. Nó sử dụng các vòng lặp chức năng lặp để lưu trữ thông tin.
Sự khác biệt với các mạng thần kinh truyền thống sử dụng hình ảnh từ cuốn sách này :
Và, một RNN:
Lưu ý sự khác biệt - các kết nối của mạng nơ ron phản hồi không tạo thành chu kỳ. Nếu chúng ta thư giãn điều kiện này và cũng cho phép kết nối theo chu kỳ, chúng ta sẽ có được các mạng thần kinh tái phát (RNNs). Bạn có thể thấy rằng trong lớp ẩn của kiến trúc.
Mặc dù sự khác biệt giữa một tri giác đa lớp và RNN có vẻ không đáng kể, nhưng những tác động đối với việc học theo trình tự là rất sâu rộng. MLP chỉ có thể ánh xạ từ các vectơ đầu vào sang đầu ra , trong khi RNN về nguyên tắc có thể ánh xạ từ toàn bộ lịch sử của các đầu vào trước đó đến từng đầu ra . Thật vậy, kết quả tương đương với lý thuyết gần đúng phổ quát cho MLP là một RNN với số lượng đơn vị ẩn đủ có thể xấp xỉ bất kỳ ánh xạ trình tự theo trình tự có thể đo lường nào đến độ chính xác tùy ý.
Điểm quan trọng
Các kết nối định kỳ cho phép 'bộ nhớ' của các đầu vào trước tồn tại ở trạng thái bên trong của mạng và do đó ảnh hưởng đến đầu ra của mạng.
Nói về mặt lợi thế là không phù hợp vì cả hai đều là công nghệ hiện đại và đặc biệt giỏi trong một số nhiệm vụ nhất định. Một danh mục rộng rãi của các nhiệm vụ mà RNN vượt trội là:
Mục tiêu của ghi nhãn trình tự là gán các chuỗi nhãn, được vẽ từ một bảng chữ cái cố định, cho các chuỗi dữ liệu đầu vào.
Ví dụ: Phiên âm một chuỗi các tính năng âm thanh với các từ được nói (nhận dạng giọng nói) hoặc một chuỗi các khung hình video bằng cử chỉ tay (nhận dạng cử chỉ).
Một số tác vụ phụ trong ghi nhãn trình tự là:
Phân loại trình tự
Trình tự nhãn bị hạn chế có độ dài một. Điều này được gọi là phân loại trình tự, vì mỗi chuỗi đầu vào được gán cho một lớp duy nhất. Ví dụ về nhiệm vụ phân loại trình tự bao gồm việc xác định một tác phẩm nói duy nhất và nhận dạng một lá thư viết tay cá nhân.
Phân loại phân khúc
Phân loại phân đoạn đề cập đến các nhiệm vụ trong đó các chuỗi mục tiêu bao gồm nhiều nhãn, nhưng vị trí của các nhãn - nghĩa là vị trí của các phân đoạn đầu vào mà nhãn áp dụng - được biết trước.
Một mạng lưới thần kinh tái phát (RNN) là một mạng lưới thần kinh nhân tạo có chứa lạc hậu hoặc tự kết nối, như trái ngược với chỉ có kết nối về phía trước, giống như trong một mạng lưới thần kinh feed-forward (FFNN). Do đó, tính từ "lặp lại" dùng để chỉ sự kết nối ngược hoặc tự kết nối này, tạo ra các vòng lặp trong các mạng này.
Một RNN có thể được đào tạo bằng cách truyền ngược qua thời gian (BBTT), sao cho các kết nối ngược hoặc tự kết nối này "ghi nhớ" các đầu vào đã thấy trước đó. Do đó, các kết nối này chủ yếu được sử dụng để theo dõi mối quan hệ tạm thời giữa các yếu tố của chuỗi đầu vào, điều này làm cho RNN phù hợp với dự đoán chuỗi và các nhiệm vụ tương tự.
Có một số mô hình RNN: ví dụ: RNN với các đơn vị LSTM hoặc GRU. LSTM (hoặc GRU) là một RNN có các đơn vị thực hiện một phép biến đổi phức tạp hơn một đơn vị trong "RNN đơn giản", thực hiện một phép biến đổi tuyến tính của đầu vào theo sau là ứng dụng hàm phi tuyến tính (ví dụ ReLU) Chuyển đổi tuyến tính. Về lý thuyết, "RNN đơn giản" cũng mạnh như RNN với các đơn vị LSTM. Trong thực tế, họ gặp phải vấn đề "biến mất và nổ tung gradient". Do đó, trong thực tế, các LSTM (hoặc các đơn vị lặp lại tinh vi tương tự) được sử dụng.