Tôi đã xem xét khả năng phân loại âm thanh (ví dụ âm thanh của động vật) bằng cách sử dụng phổ. Ý tưởng là sử dụng một mạng nơ ron tích chập sâu để nhận ra các phân đoạn trong biểu đồ phổ và xuất một (hoặc nhiều) nhãn lớp. Đây không phải là một ý tưởng mới (xem ví dụ phân loại âm thanh cá voi hoặc nhận dạng phong cách âm nhạc ).
Vấn đề mà tôi gặp phải là tôi có các tệp âm thanh có độ dài khác nhau và do đó các phổ có kích cỡ khác nhau. Cho đến nay, mọi phương pháp tôi thấy đều sử dụng một mẫu âm thanh có kích thước cố định nhưng tôi không thể làm điều đó vì tệp âm thanh của tôi có thể dài 10 giây hoặc 2 phút.
Ví dụ, với một âm thanh chim ở đầu và một âm thanh ếch ở cuối (đầu ra phải là "Bird, Frog"). Giải pháp hiện tại của tôi sẽ là thêm một thành phần tạm thời vào mạng thần kinh (tạo thêm mạng thần kinh tái phát) nhưng bây giờ tôi muốn giữ cho nó đơn giản. Bất kỳ ý tưởng, liên kết, hướng dẫn, ...?