Geoffrey Hinton đã nghiên cứu một cái gì đó mà ông gọi là "lý thuyết viên nang" trong các mạng lưới thần kinh. Cái này là gì và nó hoạt động như thế nào?
Geoffrey Hinton đã nghiên cứu một cái gì đó mà ông gọi là "lý thuyết viên nang" trong các mạng lưới thần kinh. Cái này là gì và nó hoạt động như thế nào?
Câu trả lời:
Nó dường như chưa được công bố; tốt nhất có sẵn trực tuyến là những slide cho cuộc nói chuyện này . (Một số người tham khảo một cuộc nói chuyện trước đó với liên kết này , nhưng thật đáng buồn là nó đã bị hỏng tại thời điểm viết câu trả lời này.)
Ấn tượng của tôi là đó là một nỗ lực để chính thức hóa và trừu tượng hóa việc tạo ra các mạng con bên trong một mạng lưới thần kinh. Đó là, nếu bạn nhìn vào một mạng nơ-ron tiêu chuẩn, các lớp được kết nối đầy đủ (nghĩa là mọi nơ-ron ở lớp 1 đều có quyền truy cập vào mọi nơ-ron ở lớp 0 và được truy cập bởi mọi nơ-ron ở lớp 2). Nhưng điều này rõ ràng không hữu ích; một thay vì có thể có, nói, n ngăn xếp song song của các lớp (của viên nang ') mà mỗi chuyên về một số nhiệm vụ riêng biệt (có thể bản thân đòi hỏi nhiều hơn một lớp để hoàn thành công).
Nếu tôi tưởng tượng kết quả của nó một cách chính xác, cấu trúc liên kết đồ thị phức tạp hơn này có vẻ như là thứ gì đó có thể dễ dàng tăng cả tính hiệu quả và khả năng diễn giải của mạng kết quả.
Để bổ sung cho câu trả lời trước: có một bài viết về vấn đề này chủ yếu là về việc học các viên nang cấp thấp từ dữ liệu thô, nhưng giải thích quan niệm của Hinton về một viên nang trong phần giới thiệu của nó: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
Cũng đáng lưu ý rằng liên kết đến bài nói chuyện của MIT trong câu trả lời ở trên dường như đang hoạt động trở lại.
Theo Hinton, "viên nang" là một tập hợp con của các nơ-ron trong một lớp tạo ra cả "tham số khởi tạo" cho biết liệu một thực thể có trong một miền giới hạn và một vectơ "tham số đặt ra" chỉ định vị trí của thực thể liên quan đến một phiên bản kinh điển.
Các tham số đầu ra của các viên nang cấp thấp được chuyển đổi thành các dự đoán cho tư thế của các thực thể được biểu thị bằng các viên nang cấp cao hơn, được kích hoạt nếu các dự đoán đồng ý và đưa ra các tham số của riêng chúng (các tham số đặt mức cao hơn là trung bình của các dự đoán nhận được ).
Hinton suy đoán rằng phát hiện trùng hợp chiều cao này là những gì tổ chức cột nhỏ trong não dành cho. Mục tiêu chính của anh ta dường như là thay thế nhóm tối đa được sử dụng trong các mạng chập, trong đó các lớp sâu hơn làm mất thông tin về tư thế.
Các mạng Capsule cố gắng bắt chước các quan sát của Hinton về bộ não con người trên máy. Động lực bắt nguồn từ thực tế là các mạng lưới thần kinh cần mô hình hóa tốt hơn các mối quan hệ không gian của các bộ phận. Thay vì mô hình hóa sự tồn tại, không quan tâm đến định vị tương đối, các mạng lưới cố gắng mô hình hóa các biến đổi tương đối toàn cầu của các phần phụ khác nhau theo một hệ thống phân cấp. Đây là sự đánh đổi hiệu quả so với bất biến, như những người khác đã giải thích ở trên.
Do đó, các mạng này bao gồm phần nào nhận thức về quan điểm / định hướng và phản ứng khác nhau đối với các định hướng khác nhau. Thuộc tính này làm cho chúng phân biệt đối xử hơn, trong khi có khả năng giới thiệu khả năng thực hiện ước tính tư thế vì các tính năng không gian tiềm ẩn có thể hiểu được, đặt ra các chi tiết cụ thể.
Tất cả điều này được thực hiện bằng cách bao gồm một lớp lồng nhau được gọi là viên nang trong lớp, thay vì nối một lớp khác trong mạng. Những viên nang này có thể cung cấp đầu ra vector thay vì một vô hướng trên mỗi nút.
Đóng góp quan trọng của bài báo là định tuyến động thay thế nhóm tối đa tiêu chuẩn bằng một chiến lược thông minh. Thuật toán này áp dụng một cụm dịch chuyển trung bình trên các đầu ra của viên nang để đảm bảo rằng đầu ra chỉ được gửi đến cha mẹ thích hợp trong lớp ở trên.
Các tác giả cũng kết hợp các đóng góp với tổn thất biên và mất tái thiết, đồng thời giúp học tập nhiệm vụ tốt hơn và hiển thị trạng thái của các kết quả nghệ thuật trên MNIST.
Bài báo gần đây được đặt tên là Định tuyến động giữa các viên nang và có sẵn trên Arxiv: https://arxiv.org/pdf/1710.09829.pdf .
Dựa trên giấy của họ Định tuyến động giữa các viên nang
Một viên nang là một nhóm các tế bào thần kinh có vectơ hoạt động đại diện cho các tham số khởi tạo của một loại thực thể cụ thể như một đối tượng hoặc một phần đối tượng. Chúng tôi sử dụng độ dài của vectơ hoạt động để biểu thị xác suất mà thực thể tồn tại và hướng của nó để biểu diễn các tham số khởi tạo. Các viên nang hoạt động ở một cấp đưa ra dự đoán, thông qua ma trận biến đổi, cho các tham số khởi tạo của các viên nang cấp cao hơn. Khi nhiều dự đoán đồng ý, một viên nang cấp cao hơn sẽ hoạt động. Chúng tôi cho thấy rằng một hệ thống viên nang nhiều lớp được đào tạo phân biệt đối xử đạt được hiệu suất hiện đại trên MNIST và tốt hơn đáng kể so với mạng tích chập trong việc nhận ra các chữ số chồng chéo cao. Để đạt được những kết quả này, chúng tôi sử dụng cơ chế định tuyến theo thỏa thuận lặp: Một viên nang cấp thấp thích gửi đầu ra của nó tới các viên nang cấp cao hơn mà vectơ hoạt động của nó có một sản phẩm vô hướng lớn với dự đoán đến từ viên nang cấp thấp hơn. Phiên bản cuối cùng của bài báo đang được sửa đổi để bao gồm các ý kiến của người đánh giá.
Một trong những lợi thế chính của mạng nơ ron kết hợp là bất biến đối với dịch thuật. Tuy nhiên, bất biến này đi kèm với một mức giá và đó là, nó không xem xét các tính năng khác nhau có liên quan với nhau như thế nào. Ví dụ: nếu chúng ta có hình ảnh khuôn mặt CNN sẽ gặp khó khăn trong việc phân biệt mối quan hệ giữa đặc điểm miệng và đặc điểm mũi. Các lớp gộp tối đa là lý do chính cho hiệu ứng này. Bởi vì khi chúng ta sử dụng các lớp gộp tối đa, chúng ta sẽ mất các vị trí chính xác của miệng và tiếng ồn và chúng ta không thể nói chúng liên quan với nhau như thế nào.
Viên nang cố gắng giữ lợi thế của CNN và khắc phục nhược điểm này theo hai cách;
Khi viên nang hoạt động bình thường, xác suất của thực thể thị giác là bất biến cục bộ - nó không thay đổi khi thực thể di chuyển qua đa tạp xuất hiện trong miền giới hạn được bao phủ bởi viên nang.
Nói cách khác, viên nang có tính đến sự tồn tại của tính năng cụ thể mà chúng ta đang tìm kiếm như miệng hoặc mũi. Thuộc tính này đảm bảo rằng các viên nang được dịch bất biến giống như các CNN.