Biện minh toán học cho việc sử dụng các mạng thần kinh tái phát trên các mạng chuyển tiếp


7

Tôi đã tự hỏi và cố gắng hiểu liệu có tồn tại bất kỳ lý do toán học nào đằng sau sự vượt trội của RNN so với các mạng chuyển tiếp khi xử lý dữ liệu tuần tự hay không. Ví dụ: khi mô hình hóa chuỗi thời gian, HMM, v.v ... Giả sử rằng độ dài của chuỗi là cố định, nhưng rất lớn.

Bằng trực giác thì rõ ràng rằng RNNs có thể nhớ các thông tin có liên quan đến hiện tại thời gian tức thời trong biến trạng thái và sử dụng đó để cập nhật trạng thái của họ để dựa trên đầu vào hiện . Ví dụ: nếu chúng ta muốn mô hình bằng cách sử dụng mạng Chuyển tiếp, chúng ta nên có một nút đầu vào cho mỗi và tổng hợp chúng để có được trong khi với RNN, chúng ta chỉ cần cần một nút đầu vào duy nhất cho và trạng thái ghi nhớ tổng .tht1htxtYt=Xt+Xt1++X0XiYtXtXt1++X0

Mặc dù ví dụ trên khá cơ bản, nhưng nó nhấn mạnh rằng độ phức tạp của RNN (# của các nút, độ sâu) ít hơn nhiều so với mức độ chuyển tiếp của Feed.

Bất cứ ai cũng có thể cung cấp một ví dụ về các họ hàm không thể được bắt bởi Feed-Forward nhưng có thể được xấp xỉ bằng RNNs không? Bất kỳ tài liệu tham khảo trực tiếp đến cùng cũng được đánh giá cao.


Câu trả lời:


2

Tôi không nghĩ rằng đây sẽ là một câu trả lời rất thỏa mãn, bởi vì nó phần nào là bằng chứng theo định nghĩa, nhưng tôi tin rằng dù sao nó cũng đúng (mặc dù không phải là rất toán học ).

Bất cứ ai cũng có thể cung cấp một ví dụ về các họ hàm không thể được bắt bởi Feed-Forward nhưng có thể được xấp xỉ bằng RNNs không?

Không. Ít nhất là không nếu chúng ta chấp nhận định nghĩa này của hàm;

... Mối quan hệ giữa một tập hợp các đầu vào và một tập hợp các đầu ra cho phép với thuộc tính mà mỗi đầu vào có liên quan đến chính xác một đầu ra. [ Wikipedia ]

Nếu chúng ta tưởng tượng một số chức năng giả thuyết hoạt động trên một số vectơ đầu vào và chưa thể được biểu thị bởi bất kỳ mạng thần kinh chuyển tiếp nguồn cấp dữ liệu nào, chúng ta có thể chỉ cần sử dụng làm hàm truyền và, voila , chúng ta có thể bây giờ xây dựng một perceptron đơn giản thực hiện siêu bộ chức năng của ;ψ(x)xψ(x)ψ(x)

f(x)=ψ(b+wx)

Tôi sẽ để nó như một bài tập cho người đọc để tìm ra những giá trị nào chúng ta cần cho vectơ thiên vị, và trọng số, , để làm cho đầu ra perceptron của chúng ta bắt chước theo hàm bí ẩn của chúng ta !bwf(x)ψ(x)

Điều duy nhất mà RNN có thể làm là mạng chuyển tiếp nguồn cấp dữ liệu không thể là trạng thái duy trì. Do yêu cầu rằng một đầu vào ánh xạ tới một đầu ra duy nhất, các hàm không thể giữ trạng thái. Vì vậy, bằng ví dụ mâu thuẫn ở trên, chúng ta có thể thấy rằng một mạng chuyển tiếp nguồn cấp dữ liệu có thể làm bất cứ điều gì (nhưng không nhiều hơn) so với bất kỳ chức năng nào (liên tục hoặc cách khác).

Lưu ý : Tôi nghĩ rằng tôi đã trả lời câu hỏi của bạn, nhưng tôi nghĩ rằng đáng để chỉ ra một cảnh báo nhẹ; mặc dù không tồn tại một chức năng không thể được ánh xạ bởi mạng chuyển tiếp nguồn cấp dữ liệu, nhưng chắc chắn có những chức năng phù hợp hơn với RNN so với mạng chuyển tiếp nguồn cấp dữ liệu. Bất kỳ chức năng nào được sắp xếp theo cách mà các bộ tính năng trong chức năng đều được thể hiện dễ dàng như các phép biến đổi của các kết quả trước đó có thể phù hợp hơn với RNN.

Một ví dụ về điều này có thể là tìm số thứ n của chuỗi Wikipedia, nếu các đầu vào được trình bày tuần tự;

F(x)=F(x1)+F(x2)

Một RNN có thể xấp xỉ chuỗi này một cách hiệu quả bằng cách chỉ sử dụng một tập hợp các hàm biến đổi tuyến tính, trong khi đó một hàm không trạng thái, hoặc mạng nơ ron chuyển tiếp nguồn cấp dữ liệu, sẽ cần xấp xỉ giải pháp chức năng cho chuỗi Fibonacci:

F(x)=ϕnψn5

trong đó là tỷ lệ vàng và .ϕψ1.618

Như bạn có thể tưởng tượng, biến thể đầu tiên dễ dàng hơn gần đúng với các hàm truyền thông thường có sẵn cho người thiết kế mạng thần kinh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.