Một CNN sẽ học cách nhận ra các mẫu trên không gian. Vì vậy, như bạn nói, một CNN sẽ học cách nhận biết các thành phần của hình ảnh (ví dụ: đường, đường cong, v.v.) và sau đó học cách kết hợp các thành phần này để nhận ra các cấu trúc lớn hơn (ví dụ: khuôn mặt, đối tượng, v.v.).
Theo một cách rất chung chung, RNN sẽ học cách nhận biết các mẫu tương tự theo thời gian. Vì vậy, một RNN được đào tạo để dịch văn bản có thể học được rằng "con chó" nên được dịch khác đi nếu đứng trước từ "nóng".
Tuy nhiên, cơ chế mà hai loại NN đại diện cho các mẫu này là khác nhau. Trong trường hợp của CNN, bạn đang tìm kiếm tương tự mẫu trên tất cả các trường con khác nhau của hình ảnh. Trong trường hợp RNN, bạn (trong trường hợp đơn giản nhất) cung cấp các lớp ẩn từ bước trước đó làm đầu vào bổ sung vào bước tiếp theo. Mặc dù RNN xây dựng bộ nhớ trong quá trình này, nhưng nó không tìm kiếm các mẫu giống nhau trên các lát thời gian khác nhau giống như cách mà CNN đang tìm kiếm các mẫu giống nhau trên các vùng không gian khác nhau.
Tôi cũng nên lưu ý rằng khi tôi nói "thời gian" và "không gian" ở đây, nó không nên được sử dụng quá đúng theo nghĩa đen. Chẳng hạn, bạn có thể chạy RNN trên một hình ảnh để chú thích hình ảnh và ý nghĩa của "thời gian" chỉ đơn giản là thứ tự xử lý các phần khác nhau của hình ảnh. Vì vậy, các đối tượng được xử lý ban đầu sẽ thông báo chú thích cho các đối tượng sau đó được xử lý.