Lớp Convolutional 1D trong Deep Learning là gì?


13

Tôi hiểu rất rõ về vai trò và cơ chế của các lớp chập trong Deep Learning để xử lý hình ảnh trong trường hợp triển khai 2D hoặc 3D - họ "đơn giản" cố gắng bắt các mẫu 2D trong hình ảnh (trong 3 kênh trong trường hợp 3D).

Nhưng gần đây tôi đã va vào các lớp chập 1D trong bối cảnh Xử lý ngôn ngữ tự nhiên, đây là một điều gây ngạc nhiên cho tôi, bởi vì theo hiểu biết của tôi, tích chập 2D đặc biệt được sử dụng để bắt các mẫu 2D không thể tiết lộ ở dạng 1D (vectơ) pixel hình ảnh. Logic đằng sau tích chập 1D là gì?

Câu trả lời:


16

Nói tóm lại, không có gì đặc biệt về số lượng kích thước cho tích chập. Bất kỳ chiều nào của tích chập có thể được xem xét, nếu nó phù hợp với một vấn đề.

Số lượng kích thước là một thuộc tính của vấn đề đang được giải quyết. Ví dụ: 1D cho tín hiệu âm thanh, 2D cho hình ảnh, 3D cho phim. . .

Bỏ qua số lượng kích thước một cách ngắn gọn, những điều sau đây có thể được coi là điểm mạnh của mạng nơ ron tích chập (CNN), so với các mô hình được kết nối đầy đủ, khi xử lý một số loại dữ liệu nhất định:

  1. Việc sử dụng các trọng số được chia sẻ cho từng vị trí mà quá trình tích chập làm giảm đáng kể số lượng tham số cần học, so với cùng một dữ liệu được xử lý thông qua mạng được kết nối đầy đủ.

  2. Trọng lượng được chia sẻ là một hình thức chính quy.

  3. Cấu trúc của một mô hình tích chập đưa ra các giả định mạnh mẽ về các mối quan hệ cục bộ trong dữ liệu, khi mà sự thật làm cho nó phù hợp với vấn đề.

    3.1 Các mẫu cục bộ cung cấp dữ liệu dự đoán tốt (và / hoặc có thể được kết hợp một cách hữu ích thành các mẫu dự đoán phức tạp hơn ở các lớp cao hơn)

    3.2 Các loại mẫu tìm thấy trong dữ liệu có thể được tìm thấy ở nhiều nơi. Tìm cùng một mẫu trong một tập hợp các điểm dữ liệu khác nhau có ý nghĩa.

Các thuộc tính này của CNN không phụ thuộc vào số lượng kích thước. Các CNN một chiều hoạt động với các mẫu trong một chiều và có xu hướng hữu ích trong phân tích tín hiệu qua các tín hiệu có độ dài cố định. Chúng hoạt động tốt để phân tích tín hiệu âm thanh, ví dụ. Ngoài ra đối với một số xử lý ngôn ngữ tự nhiên - mặc dù các mạng thần kinh tái phát, cho phép độ dài chuỗi khác nhau, có thể phù hợp hơn ở đó, đặc biệt là các mạng có bố trí cổng bộ nhớ như LSTM hoặc GRU. Tuy nhiên, CNN có thể dễ quản lý hơn và bạn có thể chỉ cần đệm đầu vào có độ dài cố định.


2D chỉ dành cho hình ảnh thang độ xám? Điều gì xảy ra khi bạn giới thiệu RGB?
Mohammad Athar

1
@MohammadAthar: RGB được biểu diễn dưới dạng các kênh (hoặc bản đồ đặc trưng ) của thông tin 2D riêng biệt và thường được coi là 2D khi mô tả các lớp CNN. Nếu bạn đang sử dụng TensorFlow hoặc Keras, bạn chắc chắn sẽ sử dụng định nghĩa lớp Conv2D để xử lý hình ảnh màu. Tuy nhiên, việc triển khai thường sẽ có cấu trúc 3D và 4D bên trong để lưu trữ trọng lượng. . . và tích chập 2D trên nhiều kênh thực sự là trường hợp đặc biệt của tích chập 3D về mặt toán học (trong đó kích thước đầu vào và nhân phải khớp với lớp cuối cùng). Vì vậy, đây là một quy ước đặt tên nhiều như bất cứ điều gì.
Neil Slater
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.