Câu trả lời:
Nhìn chung, người ta có thể nghĩ về hai loại độ cứng dẫn đến học máy: Độ cứng lý thuyết thông tin trong bối cảnh học thống kê (cụ thể là đưa ra giới hạn thấp hơn cho số lượng ví dụ tối thiểu cần học) và độ cứng thuật toán (nghĩa là lựa chọn thuật toán kém có nghĩa là việc tối ưu hóa trở nên không thể).
Trong bối cảnh học tập sâu, thảo luận về độ cứng là khó khăn, vì chúng ta thực sự biết rất ít về lý do tại sao lý thuyết học sâu hoạt động. (Nhắc lại: Vấn đề tối ưu hóa được giải quyết trong học sâu là việc giảm thiểu chức năng không lồi có chiều cao và nói chung là NP-hard nói chung. Ví dụ, không có gì đảm bảo wrt đạt đến mức tối thiểu toàn cầu. Các học viên đã sử dụng các biến thể của SGD để giải quyết rất nhiều vấn đề. Đã có một số tiến bộ gần đây trong việc đưa ra một câu trả lời chính đáng về lý do tại sao lại như vậy, nhưng điều này nằm ngoài phạm vi câu hỏi của bạn.)
Một ví dụ rất hay cho độ cứng thuật toán trong học sâu là cố gắng học các vấn đề trong đó độ dốc không mang tính thông tin. Deep learning hiện sử dụng một số hình thức SGD để cập nhật trọng lượng của mạng. ví dụ: các lô nhỏ GD tính toán độ dốc của hàm chi phí qua một mẫu ngẫu nhiên của các ví dụ ghi vào tham số :θ
Nói cách khác, tối ưu hóa DL đang cố gắng tối ưu hóa toàn cầu một chức năng bằng cách sử dụng thông tin độ dốc cục bộ ; Điều này cho thấy rằng nếu một vấn đề học tập được đặc trưng bởi độ dốc không thông tin, thì không có kiến trúc học sâu sẽ có thể học nó.
Học chẵn lẻ ngẫu nhiên là vấn đề học tập sau đây:
Sau khi chọn một vectơ , mục tiêu là đào tạo một ánh xạ dự đoán to , trong đó là thống nhất phân phối. Nói cách khác, chúng tôi đang cố gắng tìm hiểu một ánh xạ xác định xem số 1 trong một tập hợp con tọa độ nhất định của (được biểu thị bằng ) là chẵn hay lẻ.
Trong "Thất bại của việc học sâu dựa trên Gradient" ( Shamir, 2017 ), các tác giả đã chứng minh rằng vấn đề này (và nói chung, mọi hàm tuyến tính được cấu thành bởi một định kỳ ) đều gặp phải các độ dốc không thông tin, do đó khiến vấn đề tối ưu hóa trở nên khó khăn .
Họ cũng chứng minh điều này bằng thực nghiệm, bằng cách đo độ chính xác như là một hàm của số lần lặp đào tạo, cho các kích thước đầu vào khác nhau.
Mạng được sử dụng ở đây là một lớp có chiều rộng được kết nối đầy đủ với kích hoạt ReLU và lớp đầu ra được kết nối đầy đủ với kích hoạt tuyến tính và một đơn vị. (Độ rộng được chọn là để đảm bảo rằng chức năng tương đương được yêu cầu thực sự được thực hiện bởi một mạng như vậy)
Q: Tại sao việc học chẵn lẻ chỉ trở nên khó khăn trong khoảng ?
Nó thất bại khi bạn không áp đặt đúng cấu trúc cho vấn đề. Các mạng nơ ron kết hợp hoạt động vì chúng giả sử các pixel gần nhau có liên quan với nhau, do đó, sẽ hợp lý khi áp dụng các cấu trúc không gian cho các tính năng của bạn. Và như vậy, bạn đã giảm đáng kể không gian tìm kiếm giả thuyết, điều đó có nghĩa là học sâu có nhiều khả năng đi đến một giải pháp tối ưu.
Nếu bạn áp dụng học sâu vào một vấn đề trong đó các tính năng không thể chấp nhận được đối với các kết luận không gian / thời gian, thì học sâu sẽ thất bại, vì sẽ không có ý nghĩa gì khi tóm tắt các tính năng nhất định và áp dụng các chức năng cho tổng kết, đó là những gì mạng lưới thần kinh làm.
Nếu ai đó có thể nghĩ về một ví dụ về nơi học sâu đã được áp dụng thành công cho dữ liệu không phải là hình ảnh hoặc âm thanh (hoặc dữ liệu không gian / thời gian), tôi sẽ rất vui mừng khi rút lại câu trả lời này.