Làm thế nào để một lớp chập khác với một mạng chập thông thường?


9

Tôi hiện đang làm việc để tạo lại kết quả của bài viết này . Trong bài báo, họ mô tả một phương pháp sử dụng CNN để trích xuất các tính năng và có một mô hình âm thanh là Dnn-hmm và được xử lý trước bằng RBM.

Tiểu mục III Phần A nêu các cách khác nhau mà dữ liệu đầu vào có thể được trình bày. Tôi quyết định xếp theo chiều dọc các ô phổ của vùng đồng bằng tĩnh, đồng bằng và châu thổ.

Vì vậy, như vậy: nhập mô tả hình ảnh ở đây

Bài báo sau đó mô tả cách mạng nên được. Họ tuyên bố rằng họ sử dụng một mạng chập, nhưng không có gì về cấu trúc của mạng?. Hơn nữa, mạng luôn được gọi là một lớp chập chững? mà tôi chắc chắn rằng tôi thấy bất kỳ sự khác biệt so với một mạng thần kinh tích chập mạng thông thường (cnn).

Bài viết nêu điều này liên quan đến sự khác biệt:

(từ phần III tiểu mục B)

Tuy nhiên, lớp tích chập khác với lớp ẩn được kết nối đầy đủ theo hai khía cạnh quan trọng. Đầu tiên, mỗi đơn vị chập chỉ nhận đầu vào từ một khu vực cục bộ của đầu vào. Điều này có nghĩa là mỗi đơn vị đại diện cho một số tính năng của một khu vực địa phương của đầu vào. Thứ hai, các đơn vị của lớp chập có thể tự tổ chức thành một số bản đồ đặc trưng, ​​trong đó tất cả các đơn vị trong cùng một bản đồ tính năng đều có cùng trọng số nhưng nhận đầu vào từ các vị trí khác nhau của lớp dưới

Một điều nữa tôi đã tự hỏi là liệu bài báo có thực sự cần bao nhiêu tham số đầu ra để cung cấp cho mô hình âm thanh dnn-hmm hay không. Tôi dường như không thể giải mã số lượng bộ lọc, kích thước bộ lọc .. nói chung chi tiết về mạng?


Tôi cũng quan tâm đến việc này. Đoán tôi có thể bắt đầu một tiền thưởng để tăng tốc quá trình.
Lamda

Câu trả lời:


4

Có vẻ như một lớp chập hoàn toàn giống như một lớp chập thông thường. Từ bài báo của họ, họ lập luận rằng thuật ngữ "lớp CNN" thường dùng để chỉ một lớp chập theo sau là một lớp gộp. Trong một nỗ lực để giảm sự nhầm lẫn, họ đặt tên cho phần chập là "lớp chập" và phần gộp là "plying ply":

Trong thuật ngữ CNN, một cặp lớp chập và gộp trong Hình 2 liên tiếp thường được gọi là một lớp CNN ảo. Do đó, một CNN sâu bao gồm hai hoặc nhiều cặp này liên tiếp. Để tránh nhầm lẫn, chúng tôi sẽ đề cập đến các lớp chập và gộp chung tương ứng là các lớp chập và gộp chung.

Trớ trêu thay, điều này đã làm tăng sự nhầm lẫn, dẫn đến bài đăng này. Vào thời điểm đó, tôi cho rằng không có nhiều lớp chập liên tiếp trước một lớp gộp, nhưng chúng ta thường thấy điều này trong các kiến ​​trúc hiện đại.

Để trả lời câu hỏi khác của bạn về cấu trúc mạng; họ nêu cấu trúc của mạng mà họ sử dụng trong phần Thử nghiệm (Phần VB). Để hy vọng giảm bớt sự nhầm lẫn, tôi đã thay thế từ "ply" bằng "layer":

Trong các thí nghiệm này, chúng tôi đã sử dụng một lớp chập [lớp], một lớp [lớp] và hai lớp ẩn được kết nối đầy đủ ở trên cùng. Các lớp được kết nối đầy đủ có 1000 đơn vị trong mỗi. Các tham số tích chập và gộp là: kích thước gộp 6, kích thước 2, kích thước bộ lọc 8, 150 bản đồ tính năng cho FWS và 80 bản đồ tính năng trên mỗi dải tần cho LWS.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.