Bài đăng này đã được cập nhật rất nhiều. Trên đầu trang, bạn có thể xem cập nhật liên kết. Dưới đây, các biến thể về câu trả lời ban đầu. Đối với phiên bản ngắn: thành công của mạng lưới thần kinh tích chập và học tập sâu trông giống như một cuộc cách mạng Galilê. Đối với quan điểm thực tế, xử lý tín hiệu cổ điển hoặc thị giác máy tính đã chết ... miễn là bạn có đủ dữ liệu được dán nhãn, ít quan tâm đến các lỗi phân loại rõ ràng ( sai sót sâu ), có năng lượng vô hạn để chạy thử nghiệm mà không nghĩ về dấu chân carbon , và đừng bận tâm giải thích hợp lý. Đối với những người khác, điều này khiến chúng tôi phải suy nghĩ lại về tất cả những gì chúng tôi đã làm trước đây: trích xuất tính năng, tối ưu hóa (xem đồng nghiệp của tôi J.-C. Công việc pquet trên cấu trúc mạng lưới thần kinh sâu giải quyết bất bình đẳng biến đổi), bất biến, định lượng, v.v. Và nghiên cứu thực sự thú vị đang nổi lên từ đó, hy vọng bắt kịp với các nguyên tắc nền tảng vững chắc và hiệu suất tương tự.
Liên kết cập nhật:
Chúng tôi giới thiệu các ví dụ đối nghịch tự nhiên - các ví dụ trong thế giới thực, không thay đổi và xảy ra tự nhiên khiến độ chính xác của phân loại giảm đáng kể. Chúng tôi sắp xếp 7.500 ví dụ đối nghịch tự nhiên và phát hành chúng trong bộ kiểm tra phân loại ImageNet mà chúng tôi gọi là ImageNet-A. Bộ dữ liệu này phục vụ như một cách mới để đo độ mạnh của phân loại. Giống như các ví dụ đối nghịch l_p, các ví dụ ImageNet-A chuyển thành công sang các phân loại hộp không nhìn thấy hoặc hộp đen. Ví dụ: trên ImageNet-A, DenseNet-121 đạt độ chính xác khoảng 2%, độ chính xác giảm khoảng 90%. Khôi phục độ chính xác này không đơn giản vì các ví dụ ImageNet-A khai thác các lỗ hổng sâu trong các phân loại hiện tại bao gồm sự phụ thuộc quá mức của chúng vào màu sắc, kết cấu và tín hiệu nền. Chúng tôi quan sát rằng các kỹ thuật đào tạo phổ biến để cải thiện sự mạnh mẽ có ít hiệu quả, nhưng chúng tôi cho thấy rằng một số thay đổi kiến trúc có thể tăng cường sự mạnh mẽ cho các ví dụ đối nghịch tự nhiên. Nghiên cứu trong tương lai là cần thiết để cho phép khái quát hóa mạnh mẽ cho bộ thử nghiệm ImageNet cứng này.
- 2019/05/03: Học sâu: biên giới cuối cùng để xử lý tín hiệu và phân tích chuỗi thời gian? "Trong bài viết này, tôi muốn chỉ ra một số lĩnh vực trong đó tín hiệu hoặc chuỗi thời gian là quan trọng"
- 2018/04/23: Tôi vừa trở về từ hội nghị quốc tế hàng năm về âm học, lời nói và xử lý tín hiệu, ICASSP 2018 . Tôi đã rất ngạc nhiên bởi số lượng bài báo hơi dựa vào Học sâu, Mạng sâu, v.v ... Hai trong số bốn bài (của Alex Acero và Yann LeCun) đã được dành cho chủ đề đó. Đồng thời, hầu hết các nhà nghiên cứu mà tôi đã gặp đều nói đùa về điều đó ("Xin lỗi, poster của tôi nằm trên các ngân hàng bộ lọc, không phải trên Deep Learning", "Tôi không thích điều đó, tôi có bộ dữ liệu nhỏ"), hoặc đã tự hỏi về việc đạt được 0,5% cho những thách thức lớn và mất hứng thú với việc mô hình hóa các nhà vật lý hoặc thống kê.
- 2018/01/14: Một mạng lưới sâu có thể nhìn thấy một con mèo? , từ "mèo trừu tượng", đến "mèo tốt nhất" đảo ngược, vẽ, v.v. và bằng cách nào đó kết quả vượt trội trên bản phác thảo
- 2017/11/02: đã thêm các tham chiếu để biến đổi / mạng phân tán
- 2017/10/21: Đánh giá về Mạng nơ ron kết hợp cho các vấn đề nghịch đảo trong hình ảnh
- Học sâu và các ứng dụng của nó để xử lý tín hiệu và thông tin , Tạp chí xử lý tín hiệu IEEE, tháng 1 năm 2011
Tham khảo học tập sâu "bước" về xử lý tín hiệu / hình ảnh tiêu chuẩn có thể được tìm thấy ở phía dưới. Michael Elad vừa viết Deep, Rắc rối sâu sắc: Tác động của Deep Learning đối với việc xử lý hình ảnh, Toán học và Nhân loại (SIAM News, 2017/05), trích đoạn:
Sau đó, mạng lưới thần kinh đột nhiên quay trở lại, và với một sự báo thù.
Bộ lạc này rất đáng quan tâm, vì nó cho thấy sự thay đổi từ "xử lý hình ảnh" truyền thống, cố gắng mô hình hóa / hiểu dữ liệu, sang một lĩnh vực chính xác, mà không có quá nhiều cái nhìn sâu sắc.
Tên miền này đang phát triển khá nhanh. Điều này không có nghĩa là nó phát triển theo một số hướng cố ý hoặc liên tục. Không đúng cũng không sai. Nhưng sáng nay, tôi đã nghe câu nói sau đây (hoặc đó là một trò đùa?):
một thuật toán xấu với một tập hợp dữ liệu khổng lồ có thể làm tốt hơn một thuật toán thông minh với dữ liệu pauce .
Đây là thử thách rất ngắn của tôi: học sâu có thể mang lại kết quả hiện đại, nhưng người ta không phải lúc nào cũng hiểu tại sao , và một phần công việc khoa học của chúng tôi vẫn là giải thích tại sao mọi thứ hoạt động, nội dung của một phần dữ liệu là gì , Vân vân.
Học sâu đòi hỏi (rất lớn) cơ sở dữ liệu được gắn thẻ tốt. Bất cứ khi nào bạn thực hiện thủ công trên các hình ảnh đơn lẻ hoặc đơn lẻ (nghĩa là không có cơ sở dữ liệu khổng lồ phía sau), đặc biệt là ở những nơi không thể mang lại "hình ảnh được gắn thẻ dựa trên người dùng miễn phí" (trong bộ bổ sung của " mèo vui chơi trò chơi và khuôn mặt ") , bạn có thể gắn bó với xử lý hình ảnh truyền thống trong một thời gian và vì lợi nhuận. Một tweet gần đây tóm tắt rằng:
(rất nhiều) dữ liệu được gắn nhãn (không có vars bị thiếu) yêu cầu là một bộ ngắt thỏa thuận (& không cần thiết) cho nhiều tên miền
Nếu họ đang bị giết (mà tôi nghi ngờ trong một thông báo ngắn hạn), họ vẫn chưa chết. Vì vậy, bất kỳ kỹ năng nào bạn có được trong xử lý tín hiệu, phân tích hình ảnh, thị giác máy tính sẽ giúp bạn trong tương lai. Ví dụ, điều này được thảo luận trong bài đăng trên blog: Chúng ta đã quên về Hình học trong Thị giác Máy tính chưa? của Alex Kendall:
Học sâu đã cách mạng hóa tầm nhìn máy tính. Ngày nay, không có nhiều vấn đề trong đó giải pháp thực hiện tốt nhất không dựa trên mô hình học tập sâu từ đầu đến cuối. Đặc biệt, các mạng nơ ron tích chập rất phổ biến vì chúng có xu hướng hoạt động khá tốt. Tuy nhiên, những mô hình này phần lớn là hộp đen lớn. Có rất nhiều điều chúng ta không hiểu về chúng.
Một ví dụ cụ thể có thể là như sau: một vài hình ảnh rất tối (ví dụ như giám sát) từ cùng một vị trí, cần đánh giá xem một trong số chúng có thay đổi cụ thể cần phát hiện hay không, có khả năng là vấn đề xử lý hình ảnh truyền thống, hơn cả Học sâu (tính đến hôm nay).
Mặt khác, khi thành công như Deep Learning ở quy mô lớn, nó có thể dẫn đến việc phân loại sai một tập hợp dữ liệu nhỏ, có thể vô hại "trung bình" đối với một số ứng dụng. Hai hình ảnh chỉ hơi khác với mắt người có thể được phân loại khác nhau thông qua DL. Hoặc hình ảnh ngẫu nhiên có thể được đặt thành một lớp cụ thể. Ví dụ, xem mạng nơ ron sâu dễ bị đánh lừa: Dự đoán độ tin cậy cao cho hình ảnh không thể nhận ra (Nguyen A, Yosinski J, Clune J. Proc. Computer Vision and Pattern Recognition 2015), hay Deep Learning có Deep Flaws? , về tiêu cực đối nghịch:
Mạng có thể phân loại sai một hình ảnh sau khi các nhà nghiên cứu áp dụng một nhiễu loạn không thể nhận biết nhất định. Các nhiễu loạn được tìm thấy bằng cách điều chỉnh các giá trị pixel để tối đa hóa lỗi dự đoán.
Với tất cả sự tôn trọng đối với "Deep Learning", hãy nghĩ về "sản xuất hàng loạt đáp ứng với một hành vi đã được đăng ký, đã biết, có thể xác thực hàng loạt hoặc được mong đợi" so với "sản phẩm thủ công đơn lẻ". Không có gì là tốt hơn (chưa) trong một thang chỉ số duy nhất. Cả hai có thể phải cùng tồn tại trong một thời gian.
Tuy nhiên, học sâu bao trùm nhiều lĩnh vực mới lạ, như được mô tả trong tài liệu tham khảo dưới đây.
May mắn thay, một số người đang cố gắng tìm ra cơ sở toán học đằng sau việc học sâu, một ví dụ trong đó là các mạng tán xạ hoặc các biến đổi được đề xuất bởi Stéphane Mallat và các đồng tác giả, xem trang ENS để phân tán . Phân tích sóng hài và các toán tử phi tuyến tính, các hàm Lipschitz, bất biến dịch / xoay, tốt hơn cho người xử lý tín hiệu trung bình. Xem ví dụ Hiểu về Mạng kết hợp sâu .