Theo đề nghị của OP RCpinto, tôi đã chuyển đổi một nhận xét về việc xem "khoảng nửa tá bài báo theo dõi công việc của Graves và cộng sự đã tạo ra kết quả của tầm cỡ" và sẽ cung cấp một vài liên kết. Hãy nhớ rằng điều này chỉ trả lời một phần câu hỏi liên quan đến NTM, chứ không phải Google DeepMind, cộng với tôi vẫn đang học những sợi dây trong học máy, vì vậy một số tài liệu trong các bài viết này nằm trên đầu tôi; Mặc dù vậy, tôi đã cố gắng nắm bắt được nhiều tài liệu trong bài báo gốc của Graves và cộng sự {1] và gần như có mã NTM trong nhà để kiểm tra. Tôi cũng ít nhất đọc lướt qua các giấy tờ sau đây trong vài tháng qua; họ không sao chép nghiên cứu NTM một cách khoa học nghiêm ngặt, nhưng nhiều kết quả thử nghiệm của họ có xu hướng hỗ trợ ban đầu ít nhất là tiếp tuyến:
• Trong bài viết này về một phiên bản biến thể của địa chỉ NTM, Gulcehere, et al. không cố gắng sao chép chính xác các thử nghiệm của Graves và cộng sự, nhưng giống như nhóm DeepMind, nó cho thấy kết quả tốt hơn rõ rệt đối với NTM ban đầu và một số biến thể so với LSTM tái phát thông thường. Họ sử dụng 10.000 mẫu đào tạo của bộ dữ liệu Q & A trên Facebook, thay vì Graves et al. hoạt động trên giấy của họ, vì vậy nó không sao chép theo nghĩa chặt chẽ nhất. Tuy nhiên, họ đã xoay sở để có được một phiên bản NTM ban đầu và một số biến thể đang hoạt động, cộng với ghi lại mức độ cải thiện hiệu suất tương tự. 2
• Không giống như NTM ban đầu, nghiên cứu này đã thử nghiệm một phiên bản học tăng cường không khác biệt; đó có thể là lý do tại sao họ không thể giải quyết một số vấn đề giống như lập trình, như Lặp lại, trừ khi bộ điều khiển không bị giới hạn để di chuyển về phía trước. Kết quả của họ vẫn đủ tốt để cho vay hỗ trợ cho ý tưởng về NTM. Một bản sửa đổi gần đây hơn của bài báo của họ dường như có sẵn, mà tôi chưa đọc, vì vậy có lẽ một số vấn đề về biến thể của họ đã được giải quyết. 3
• Thay vì kiểm tra hương vị ban đầu của NTM đối với các mạng lưới thần kinh thông thường như LSTM, bài báo này đã đưa nó vào một số cấu trúc bộ nhớ NTM tiên tiến hơn. Họ đã có kết quả tốt trên cùng loại nhiệm vụ giống như lập trình mà Graves et al. đã thử nghiệm, nhưng tôi không nghĩ rằng họ đang sử dụng cùng một bộ dữ liệu (thật khó để biết từ cách nghiên cứu của họ được viết chỉ là những bộ dữ liệu họ đang vận hành). 4
• Trên P. 8 nghiên cứu này , một NTM rõ ràng vượt trội so với một số kế hoạch dựa trên LSTM, chuyển tiếp tiếp theo và lân cận gần nhất trên bộ dữ liệu nhận dạng ký tự Omniglot. Một cách tiếp cận khác với bộ nhớ ngoài được các tác giả nấu chín rõ ràng đánh bại nó, nhưng rõ ràng nó vẫn hoạt động tốt. Các tác giả dường như thuộc về một nhóm đối thủ tại Google, vì vậy đó có thể là một vấn đề khi đánh giá khả năng nhân rộng. 5
• Trên P. 2 tác giả này đã báo cáo việc khái quát hóa tốt hơn về "các chuỗi rất lớn" trong một thử nghiệm các tác vụ sao chép, sử dụng mạng NTM nhỏ hơn nhiều mà họ đã phát triển với thuật toán NEAT di truyền, giúp tăng trưởng các cấu trúc liên kết một cách linh hoạt. 6
NTM là khá mới vì vậy chưa có nhiều thời gian để sao chép nghiêm ngặt các nghiên cứu ban đầu, tôi cho rằng. Tuy nhiên, một số ít các giấy tờ tôi đọc lướt qua vào mùa hè, dường như cho vay hỗ trợ cho kết quả thử nghiệm của họ; Tôi chưa thấy bất kỳ báo cáo bất cứ điều gì ngoại trừ hiệu suất tuyệt vời. Tất nhiên tôi có sự thiên vị về tính khả dụng, vì tôi chỉ đọc các tệp pdf mà tôi có thể dễ dàng tìm thấy trong một tìm kiếm Internet bất cẩn. Từ mẫu nhỏ đó, dường như hầu hết các nghiên cứu tiếp theo đã tập trung vào việc mở rộng khái niệm, chứ không phải sao chép, điều này sẽ giải thích việc thiếu dữ liệu sao chép. Tôi hy vọng điều đó sẽ giúp.
1 Graves, Alex; Wayne, Greg và Danihelka, Ivo, 2014, "Máy móc thần kinh", xuất bản ngày 10 tháng 12 năm 2014.
2 Gulcehre, Caglar; Chandar, Sarath; Choy, Kyunghyun và Bengio, Yoshua, 2016, "Máy Turing thần kinh năng động với các lược đồ địa chỉ mềm và cứng", xuất bản ngày 30 tháng 6 năm 2016.
3 Zaremba, Wojciech và Sutskever, Ilya, 2015, "Củng cố máy học thần kinh học," xuất bản ngày 4 tháng 5 năm 2015.
4 Trương; Ngụy; Yu, Yang và Zhou, Bowen, 2015, "Bộ nhớ cấu trúc cho các máy Turing thần kinh", xuất bản ngày 25 tháng 10 năm 2015.
5 Santoro, Adam; Bartunov, Serge; Botvinick, Matthew; Wierstra, Daan và Lillicrap, Timothy, 2016, "Học tập một lần với mạng lưới thần kinh tăng cường trí nhớ", xuất bản ngày 19 tháng 5 năm 2016.
6 Grey Greve, Rasmus; Jacobsen, Emil Juul và Sebastian Risi, ngày chưa biết, "Máy tiến hóa thần kinh tiến hóa". Không có nhà xuất bản được liệt kê
Tất cả ngoại trừ (có lẽ) Boll Greve et al. đã được xuất bản tại Thư viện Cornell Univeristy arXiv.org Kho lưu trữ: Ithaca, New York.