Lưới kết hợp (CNN) dựa trên tích chập toán học (ví dụ: các cấu trúc 2D hoặc 3D), thường được sử dụng để xử lý tín hiệu. Hình ảnh là một loại tín hiệu và tích chập có thể được sử dụng như nhau trên âm thanh, rung động, v.v. Vì vậy, về nguyên tắc, CNN có thể tìm thấy các ứng dụng cho bất kỳ tín hiệu nào và có thể hơn thế nữa.
Trong thực tế, đã tồn tại hoạt động trên NLP (như Matthew Graves đã đề cập), trong đó một số người xử lý văn bản với CNN thay vì các mạng đệ quy. Một số tác phẩm khác áp dụng cho xử lý âm thanh (không có tài liệu tham khảo ở đây, nhưng tôi vẫn chưa công bố công việc đang diễn ra).
Nội dung gốc: Trả lời cho câu hỏi tiêu đề ban đầu, đã thay đổi ngay bây giờ. Có lẽ cần phải xóa cái này .
Nghiên cứu trên các mạng đối nghịch (và có liên quan) cho thấy ngay cả các mạng sâu cũng có thể dễ dàng bị lừa , dẫn đến việc họ nhìn thấy một con chó (hoặc bất kỳ đối tượng nào) trong tiếng ồn ngẫu nhiên khi con người nhìn vào nó (bài báo có ví dụ rõ ràng).
Một vấn đề khác là sức mạnh khái quát của một mạng lưới thần kinh. Lưới kết hợp đã làm cả thế giới ngạc nhiên với khả năng khái quát hóa cách tốt hơn so với các kỹ thuật khác. Nhưng nếu mạng chỉ được cho ăn hình ảnh của mèo, nó sẽ chỉ nhận ra mèo (và có thể nhìn thấy mèo ở khắp mọi nơi, như kết quả của mạng đối nghịch). Nói cách khác, ngay cả thần kinh trung ương có một thời gian khó khái quát hóa quá xa ngoài những gì họ học được từ.
Giới hạn nhận dạng là khó xác định chính xác. Tôi chỉ đơn giản nói rằng sự đa dạng của dữ liệu học tập đẩy giới hạn (tôi cho rằng chi tiết hơn sẽ dẫn đến địa điểm thích hợp hơn để thảo luận).