Trong " Mạng lưới niềm tin sâu sắc kết hợp cho việc học tập không giám sát có thể mở rộng về các biểu diễn phân cấp " của Lee et. al. ( PDF ) DBN Convolutional được đề xuất. Ngoài ra phương pháp được đánh giá để phân loại hình ảnh. Điều này nghe có vẻ hợp lý, vì có các tính năng hình ảnh cục bộ tự nhiên, như các góc và cạnh nhỏ, v.v.
Trong " Học tính năng không giám sát để phân loại âm thanh bằng cách sử dụng mạng niềm tin sâu tích chập " của Lee et. al. phương pháp này được áp dụng cho âm thanh trong các loại phân loại khác nhau. Nhận dạng người nói, xác định giới tính, phân loại điện thoại và phân loại nhạc / nghệ sĩ.
Làm thế nào phần tích chập của mạng này có thể được hiểu cho âm thanh, giống như nó có thể được giải thích cho hình ảnh như các cạnh?