Làm thế nào để hiểu một mạng lưới niềm tin sâu tích chập để phân loại âm thanh?


11

Trong " Mạng lưới niềm tin sâu sắc kết hợp cho việc học tập không giám sát có thể mở rộng về các biểu diễn phân cấp " của Lee et. al. ( PDF ) DBN Convolutional được đề xuất. Ngoài ra phương pháp được đánh giá để phân loại hình ảnh. Điều này nghe có vẻ hợp lý, vì có các tính năng hình ảnh cục bộ tự nhiên, như các góc và cạnh nhỏ, v.v.

Trong " Học tính năng không giám sát để phân loại âm thanh bằng cách sử dụng mạng niềm tin sâu tích chập " của Lee et. al. phương pháp này được áp dụng cho âm thanh trong các loại phân loại khác nhau. Nhận dạng người nói, xác định giới tính, phân loại điện thoại và phân loại nhạc / nghệ sĩ.

Làm thế nào phần tích chập của mạng này có thể được hiểu cho âm thanh, giống như nó có thể được giải thích cho hình ảnh như các cạnh?


Ai có mã cho bài báo?

Câu trả lời:


9

Ứng dụng âm thanh là sự đơn giản hóa một chiều của vấn đề phân loại hình ảnh hai chiều. Âm vị (ví dụ) là âm thanh tương tự của một tính năng hình ảnh như cạnh hoặc hình tròn. Trong cả hai trường hợp, các tính năng như vậy có một địa phương thiết yếu: chúng được đặc trưng bởi các giá trị trong một vùng lân cận tương đối nhỏ của một vị trí hình ảnh hoặc khoảnh khắc của lời nói. Convolutions là một hình thức kiểm soát trung bình trọng số thường xuyên của các giá trị trong các vùng lân cận địa phương. Từ điều này bắt nguồn hy vọng rằng một hình thức tích hợp của DBN có thể thành công trong việc xác định và phân biệt các tính năng có ý nghĩa.


1

Trong trường hợp RBM của Convolutional được áp dụng cho dữ liệu âm thanh, các tác giả trước tiên đã thực hiện Biến đổi Fourier ngắn hạn và sau đó xác định các dải năng lượng trên phổ. Sau đó, họ đã áp dụng RBM tích chập trên âm thanh được chuyển đổi đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.