Một vector hoạt động trong các mạng thần kinh là gì?


9

Tôi đã đọc bài báo mới của Hinton, "Định tuyến động giữa các viên nang" và không hiểu thuật ngữ "vectơ hoạt động" trong bản tóm tắt.

Một viên nang là một nhóm các nơ-ron có vectơ hoạt động đại diện cho các tham số khởi tạo của một loại thực thể cụ thể như một đối tượng hoặc một phần đối tượng. Chúng tôi sử dụng độ dài của vectơ hoạt động để biểu thị xác suất mà thực thể tồn tại và hướng của nó để biểu diễn các tham số khởi tạo. Các viên nang hoạt động ở một cấp đưa ra dự đoán, thông qua ma trận biến đổi, cho các tham số khởi tạo của các viên nang cấp cao hơn. Khi nhiều dự đoán đồng ý, một viên nang cấp cao hơn sẽ hoạt động. Chúng tôi cho thấy rằng một hệ thống viên nang nhiều lớp được đào tạo phân biệt đối xử đạt được hiệu suất hiện đại trên MNIST và tốt hơn đáng kể so với mạng tích chập trong việc nhận ra các chữ số chồng chéo cao. Để đạt được những kết quả này, chúng tôi sử dụng cơ chế định tuyến theo thỏa thuận lặp:

https://arxiv.org/pdf/1710.09829.pdf

Tôi nghĩ rằng một vectơ giống như một mảng dữ liệu mà bạn đang chạy qua mạng.

Tôi bắt đầu làm việc thông qua khóa học sâu của Andrew Ng nhưng tất cả đều mới và các điều khoản vượt qua đầu tôi.

Câu trả lời:


8

Trong một mạng nơ-ron truyền thống, các đỉnh của mạng là các nơ-ron và đầu ra của một nơ-ron đơn là một giá trị duy nhất (một " vô hướng "). Số này được gọi là kích hoạt của nó . Một lớp tế bào thần kinh trong mạng tạo ra một vectơ kích hoạt. Chúng ta không nên nhầm lẫn điều này với các vectơ hoạt động trong Mạng Capsule.

Capsule Networks khác nhau vì các đỉnh mạng là Capsules chứ không phải nơ-ron. Chúng là một chiều cao hơn: đầu ra của Capsule không phải là vô hướng mà là một vectơ đại diện cho một nhóm các tham số liên quan đến đầu vào. Do đó vector kích hoạt tên .

Động lực

Trong một mạng nơ-ron không có cấu trúc vốn có giữa các đầu ra vô hướng của các nơ-ron, đây là điều mà các lớp sau phải học. Trong Capsule Networks, đầu ra của một viên nang biểu thị tất cả các tham số liên quan đến nhau trong một vectơ bao gồm dự đoán kích hoạt các Viên nang lớp sâu hơn. Điều này thêm một cấu trúc địa phương hữu ích.

Ví dụ, xem xét nhận dạng khuôn mặt. Nếu bạn có một viên nang biết cách nhận biết mắt, nó có thể tạo ra một vectơ hoạt động đại diện cho ví dụ: "vì tôi đã nhận ra một vị trí mắt (x, y) với xác suất p = 0,97 Tôi dự đoán các tham số cho toàn bộ khuôn mặt sẽ là (F1, ... fn) ".

Như đã giải thích trong bài báo Định tuyến động giữa các viên nang, bạn đề cập đến thông tin này sau đó được sử dụng theo cách các viên nang trong các lớp trước đó (các bộ phận: mắt, miệng, mũi) dự đoán sự kích hoạt của các lớp sâu hơn (khuôn mặt). Ví dụ, bộ nhận dạng khuôn mặt sẽ chỉ được kích hoạt mạnh khi có sự thỏa thuận giữa bộ nhận dạng mắt, mũi và miệng (bộ phận) và bộ nhận diện khuôn mặt (toàn bộ) về vị trí của khuôn mặt ( (F1, ... fn ) tham số).

Cảm hứng lịch sử

Các thuật toán thị giác máy tính cũ hơn như SIFT hoạt động theo cách tương tự trong đó nhận dạng dựa trên sự thỏa thuận giữa cấu hình của các tính năng đa chiều (các điểm chính) và cấu hình tham chiếu.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.