Làm thế nào quy mô máy tính thần kinh mới khác biệt của Deepmind?

Deepmind vừa xuất bản một bài báo về một "máy tính thần kinh khác biệt" , về cơ bản kết hợp một mạng lưới thần kinh với một bộ nhớ .

Ý tưởng là dạy cho mạng lưới thần kinh tạo và nhớ lại những ký ức rõ ràng hữu ích cho một nhiệm vụ nhất định. Điều này bổ sung tốt cho khả năng của mạng nơ-ron, vì NN chỉ lưu trữ kiến thức ngầm trong các trọng số và thông tin được sử dụng để thực hiện một tác vụ duy nhất chỉ được lưu trữ trong quá trình kích hoạt mạng và làm giảm nhanh chóng thông tin bạn thêm vào. (Các LSTM là một người cố gắng làm chậm sự xuống cấp của những ký ức ngắn hạn, nhưng nó vẫn xảy ra.)

Bây giờ, thay vì giữ thông tin cần thiết trong quá trình kích hoạt, có lẽ họ giữ địa chỉ của các khe cắm bộ nhớ để biết thông tin cụ thể trong quá trình kích hoạt, vì vậy những thông tin này cũng có thể bị suy giảm. Câu hỏi của tôi là tại sao phương pháp này nên mở rộng quy mô. Không nên số lượng thông tin cụ thể của nhiệm vụ cao hơn một lần nữa có thể áp đảo khả năng giữ địa chỉ của tất cả các khe cắm bộ nhớ phù hợp trong quá trình kích hoạt không?

deep-learning ai-design

— BlindKungFuMaster
nguồn

Kiểm tra kiến trúc của DNC thực sự cho thấy nhiều điểm tương đồng với LSTM . Hãy xem xét sơ đồ trong bài viết DeepMind mà bạn đã liên kết đến:

So sánh điều này với kiến trúc LSTM (tín dụng cho ananth trên SlideShare):

Có một số tương tự gần đây:

Giống như LSTM, DNC sẽ thực hiện một số chuyển đổi từ đầu vào sang các vectơ trạng thái có kích thước cố định ( h và c trong LSTM)
Tương tự, DNC sẽ thực hiện một số chuyển đổi từ các vectơ trạng thái có kích thước cố định này sang đầu ra có độ dài tùy ý (trong LSTM, chúng tôi liên tục lấy mẫu từ mô hình của mình cho đến khi chúng tôi hài lòng / mô hình cho biết chúng tôi đã hoàn thành)
Cổng quên và cổng đầu vào của LSTM thể hiện thao tác ghi trong DNC ('quên' về cơ bản chỉ là bộ nhớ zeroing hoặc zeroing một phần)
Cổng đầu ra của LSTM thể hiện hoạt động đọc trong DNC

Tuy nhiên, DNC chắc chắn không chỉ là một LSTM. Rõ ràng nhất, nó sử dụng một trạng thái lớn hơn được phân tách (địa chỉ) thành khối; điều này cho phép nó làm cho cổng quên của LSTM trở nên nhị phân hơn. Điều này có nghĩa là trạng thái không nhất thiết bị xói mòn bởi một số phần tại mỗi bước, trong khi đó trong LSTM (với chức năng kích hoạt sigmoid) thì nhất thiết phải như vậy. Điều này có thể làm giảm vấn đề quên thảm khốc mà bạn đã đề cập và do đó mở rộng quy mô tốt hơn.

DNC cũng là tiểu thuyết trong các liên kết mà nó sử dụng giữa bộ nhớ. Tuy nhiên, đây có thể là một cải tiến nhỏ hơn đối với LSTM so với khi chúng ta tưởng tượng lại LSTM với các mạng thần kinh hoàn chỉnh cho mỗi cổng thay vì chỉ một lớp với chức năng kích hoạt (gọi đây là siêu LSTM); trong trường hợp này, chúng ta thực sự có thể tìm hiểu bất kỳ mối quan hệ nào giữa hai vị trí trong bộ nhớ với một mạng đủ mạnh. Mặc dù tôi không biết chi tiết cụ thể về các liên kết mà DeepMind đang đề xuất, nhưng chúng ngụ ý trong bài viết rằng họ đang học mọi thứ chỉ bằng cách sao lưu các gradient như một mạng lưới thần kinh thông thường. Do đó, bất kỳ mối quan hệ nào họ đang mã hóa trong các liên kết của họ về mặt lý thuyết đều có thể học được bằng mạng lưới thần kinh, và do đó, một 'siêu LSTM' đủ mạnh sẽ có thể nắm bắt được nó.

Với tất cả những gì đã nói , thường thì trong trường hợp học sâu, hai mô hình có khả năng lý thuyết giống nhau về biểu cảm thực hiện rất khác nhau trong thực tế. Ví dụ, hãy xem xét rằng một mạng lặp lại có thể được biểu diễn dưới dạng một mạng chuyển tiếp nguồn cấp dữ liệu lớn nếu chúng ta chỉ hủy đăng ký nó. Tương tự, mạng chập không tốt hơn mạng nơ ron vanilla vì nó có thêm một số khả năng biểu cảm; trong thực tế, chính những ràng buộc áp đặt lên trọng lượng của nó làm cho nó hiệu quả hơn . Do đó, so sánh tính biểu cảm của hai mô hình không nhất thiết là so sánh công bằng về hiệu suất của chúng trong thực tế, cũng không phải là dự đoán chính xác về mức độ chúng sẽ mở rộng.

Một câu hỏi tôi có về DNC là điều gì xảy ra khi hết bộ nhớ. Khi một máy tính cổ điển hết bộ nhớ và một khối bộ nhớ khác được yêu cầu, các chương trình bắt đầu gặp sự cố (tốt nhất). Tôi tò mò muốn xem DeepMind dự định giải quyết vấn đề này như thế nào. Tôi cho rằng nó sẽ dựa vào một số bộ nhớ thông minh hiện đang được sử dụng. Trong một số trường hợp, máy tính hiện đang làm điều này khi một hệ điều hành yêu cầu các ứng dụng giải phóng bộ nhớ không quan trọng nếu áp suất bộ nhớ đạt đến một ngưỡng nhất định.

— eric.mitchell
nguồn