Sự khác biệt giữa Mạng thần kinh chuyển đổi và Mạng thần kinh thông thường là gì?


18

Tôi đã thấy các thuật ngữ này được ném xung quanh trang web này rất nhiều, đặc biệt là trong các thẻ .

Tôi biết rằng Mạng lưới thần kinh là một hệ thống dựa trên bộ não con người một cách lỏng lẻo. Nhưng sự khác biệt giữa một là những gì Convolutional Neural Network và Neural Network thường xuyên? Là một trong những phức tạp hơn nhiều và, ahem, phức tạp hơn so với cái khác?

Câu trả lời:


23

TLDR: Mạng tích chập-mạng nơ-ron là một lớp con của mạng lưới thần kinh có ít nhất một lớp chập. Chúng rất tốt để nắm bắt thông tin địa phương (ví dụ: pixel lân cận trong hình ảnh hoặc các từ xung quanh trong văn bản) cũng như giảm độ phức tạp của mô hình (đào tạo nhanh hơn, cần ít mẫu hơn, giảm cơ hội thừa chất lượng).

Xem biểu đồ sau mô tả một số kiến ​​trúc mạng nơ-ron bao gồm mạng lưới thần kinh-quy tắc sâu : hình dung.


Mạng nơ-ron (NN) , hay chính xác hơn là Mạng nơ-ron nhân tạo (ANN) , là một loại thuật toán Machine Learning gần đây đã nhận được rất nhiều sự chú ý (một lần nữa!) Do có sẵn Dữ liệu lớn và các phương tiện tính toán nhanh (hầu hết Deep Learning thuật toán về cơ bản là các biến thể khác nhau của ANN).

Lớp ANN bao gồm một số kiến ​​trúc bao gồm Mạng thần kinh chuyển đổi ( CNN ), Mạng thần kinh tái phát ( RNN ), ví dụ LSTMGRU , AutoencodersDeep Belief Networks . Do đó, CNN chỉ là một loại ANN.

Nói chung, ANN là tập hợp các đơn vị được kết nối và điều chỉnh (còn gọi là nút, nơ ron và nơ ron nhân tạo) có thể truyền tín hiệu (thường là số có giá trị thực) từ đơn vị này sang đơn vị khác. Số lượng (lớp) đơn vị, loại của chúng và cách chúng được kết nối với nhau được gọi là kiến ​​trúc mạng.

Một CNN, cụ thể, có một hoặc nhiều lớp đơn vị chập . Một đơn vị tích chập nhận đầu vào từ nhiều đơn vị từ lớp trước đó cùng nhau tạo ra sự gần gũi. Do đó, các đơn vị đầu vào (tạo thành một vùng lân cận nhỏ) chia sẻ trọng số của chúng.

Các đơn vị tích chập (cũng như các đơn vị gộp) đặc biệt có lợi như:

  • Chúng làm giảm số lượng đơn vị trong mạng (vì chúng là ánh xạ nhiều-một ). Điều này có nghĩa là, có ít tham số hơn để tìm hiểu, điều này làm giảm cơ hội quá mức vì mô hình sẽ ít phức tạp hơn so với mạng được kết nối đầy đủ.
  • Họ xem xét bối cảnh / thông tin được chia sẻ trong các khu phố nhỏ. Tương lai này rất quan trọng trong nhiều ứng dụng như hình ảnh, video, văn bản và xử lý / khai thác giọng nói vì các đầu vào lân cận (ví dụ: pixel, khung, từ, v.v.) thường mang thông tin liên quan.

Đọc các nội dung sau để biết thêm thông tin về (sâu) CNNs:

  1. Phân loại ImageNet với các mạng nơ ron kết hợp sâu
  2. Đi sâu hơn với Convolutions

ps ANN không phải là "một hệ thống dựa trên bộ não con người" mà là một lớp các hệ thống được truyền cảm hứng từ các kết nối nơ-ron tồn tại trong não động vật.


10

Mạng thần kinh chuyển đổi (CNNs) là mạng thần kinh có các ràng buộc về kiến ​​trúc để giảm độ phức tạp tính toán và đảm bảo tính bất biến dịch (mạng diễn giải các mẫu đầu vào giống nhau bất kể dịch thuật nhận dạng hình ảnh: chuối là chuối bất kể nó ở đâu hình ảnh). Mạng nơ ron kết hợp có ba đặc điểm kiến ​​trúc quan trọng.

Kết nối cục bộ: Các nơ-ron trong một lớp chỉ được kết nối với các nơ-ron ở lớp tiếp theo gần với không gian của chúng. Thiết kế này cắt phần lớn các kết nối giữa các lớp liên tiếp, nhưng giữ cho các lớp mang thông tin hữu ích nhất. Giả định được đưa ra ở đây là dữ liệu đầu vào có ý nghĩa không gian, hoặc trong ví dụ về tầm nhìn máy tính, mối quan hệ giữa hai pixel ở xa có lẽ ít quan trọng hơn hai hàng xóm gần nhau.

Trọng lượng được chia sẻ: Đây là khái niệm làm cho CNN "tích chập". Bằng cách buộc các tế bào thần kinh của một lớp chia sẻ trọng lượng, đường truyền phía trước (cung cấp dữ liệu qua mạng) trở thành tương đương với việc tạo một bộ lọc qua hình ảnh để tạo ra một hình ảnh mới. Việc đào tạo CNN sau đó trở thành nhiệm vụ của các bộ lọc học tập (quyết định những tính năng bạn nên tìm kiếm trong dữ liệu.)

Pooling và ReLU: CNN có hai phi tuyến tính: các lớp pooling và các hàm ReLU. Các lớp gộp lại xem xét một khối dữ liệu đầu vào và chỉ cần truyền vào giá trị tối đa. Làm điều này làm giảm kích thước của đầu ra và không yêu cầu thêm tham số để tìm hiểu, do đó, các lớp gộp thường được sử dụng để điều chỉnh kích thước của mạng và giữ cho hệ thống dưới giới hạn tính toán. Hàm ReLU nhận một đầu vào, x và trả về mức tối đa là {0, x}. ReLU(x) = argmax(x, 0). Điều này giới thiệu một hiệu ứng tương tự như tanh (x) hoặc sigmoid (x) là phi tuyến tính để tăng sức mạnh biểu cảm của mô hình.


Đọc thêm

Như một câu trả lời khác đã đề cập, khóa học CS 231n của Stanford bao gồm chi tiết này. Kiểm tra hướng dẫn bằng văn bản nàybài giảng này để biết thêm thông tin. Bài đăng trên blog như thế nàyđiều này cũng rất hữu ích.

Nếu bạn vẫn tò mò tại sao CNN có cấu trúc như vậy, tôi khuyên bạn nên đọc bài báo giới thiệu về họ mặc dù điều này khá dài và có lẽ kiểm tra cuộc thảo luận này giữa Yann Lecun và Christopher Manning về các linh mục bẩm sinh (những giả định mà chúng ta đưa ra khi chúng tôi thiết kế kiến ​​trúc của một mô hình).


2
"Và đảm bảo tính bất biến dịch" Cái quái gì là dịch bất biến? Khi bạn đề cập đến một thuật ngữ bí ẩn như vậy, ít nhất, bạn nên xác định bằng trực giác.
nbro

1
Rất tiếc, tôi đồng ý tôi đã thêm vào một mô tả ngắn gọn.
Jackson Waschura

1
Đây là một câu trả lời tốt hơn cho tôi ở chỗ nó giải thích chính xác cách CNN là một loại NN cụ thể. Các câu trả lời khác không đề cập đến việc chia sẻ trọng lượng được thi hành.
Denziloe

5

Một mạng nơ ron tích chập là một mạng có các lớp chập . Nếu một mạng lưới thần kinh nói chung, nói một cách lỏng lẻo, được truyền cảm hứng từ bộ não con người (không chính xác lắm), thì mạng lưới thần kinh tích chập được lấy cảm hứng từ hệ thống vỏ não thị giác, ở người và các động vật khác (gần với sự thật hơn) . Như tên cho thấy, lớp này áp dụng tích chập với bộ lọc có thể học được (còn gọi là kernel ), do đó, mạng tìm hiểu các mẫu trong hình ảnh: các cạnh, góc, cung, sau đó là các hình phức tạp hơn. Mạng thần kinh chuyển đổi cũng có thể chứa các lớp khác, thường là các lớp dày đặc và gộp chung.

Rất khuyến khích hướng dẫn CS231n về vấn đề này: nó rất chi tiết và chứa rất nhiều hình ảnh trực quan rất đẹp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.