Một kỹ thuật xử lý tín hiệu, Cepstrum tần số Mel , thường được sử dụng để trích xuất thông tin từ một bản nhạc để sử dụng trong một nhiệm vụ học máy. Phương pháp này đưa ra phổ công suất ngắn hạn và các hệ số được sử dụng làm đầu vào.
Trong thiết kế hệ thống truy xuất âm nhạc, các hệ số như vậy được coi là đặc trưng của một bản nhạc (rõ ràng không nhất thiết phải là duy nhất, nhưng phân biệt). Có đặc điểm nào phù hợp hơn với việc học với mạng không? Các đặc điểm thay đổi theo thời gian như tiến trình âm trầm của bản nhạc được sử dụng trong một cái gì đó như mạng Elman sẽ hoạt động hiệu quả hơn?
Những đặc điểm nào sẽ tạo thành một tập hợp đủ rộng để phân loại có thể diễn ra?