Các biến đổi Fourier thường được sử dụng để phân tích tần số của âm thanh. Tuy nhiên, nó có một số nhược điểm khi phân tích nhận thức của con người về âm thanh. Ví dụ, các thùng tần số của nó là tuyến tính, trong khi tai người phản ứng với tần số logarit, không tuyến tính .
Biến đổi Wavelet có thể sửa đổi độ phân giải cho các dải tần số khác nhau , không giống như biến đổi Fourier. Các thuộc tính của biến đổi wavelet cho phép hỗ trợ thời gian lớn cho tần số thấp hơn trong khi duy trì độ rộng thời gian ngắn cho tần số cao hơn.
Các sóng con Morlet liên quan chặt chẽ đến nhận thức của con người về thính giác. Nó có thể được áp dụng cho sao chép nhạc và tạo ra kết quả rất chính xác mà không thể sử dụng các kỹ thuật biến đổi Fourier. Nó có khả năng ghi lại các đợt ngắn lặp lại và xen kẽ các nốt nhạc với thời gian bắt đầu và kết thúc rõ ràng cho mỗi nốt nhạc.
Biến đổi Q không đổi (liên quan chặt chẽ với biến đổi sóng con Morlet) cũng rất phù hợp với dữ liệu âm nhạc . Vì đầu ra của biến đổi có biên độ / pha hiệu quả so với tần số log, nên cần ít thùng quang phổ hơn để bao phủ một phạm vi nhất định và điều này chứng tỏ hữu ích khi tần số trải qua vài quãng tám.
Biến đổi thể hiện sự giảm độ phân giải tần số với các thùng tần số cao hơn, điều này là mong muốn cho các ứng dụng thính giác. Nó phản chiếu hệ thống thính giác của con người, theo đó ở độ phân giải phổ tần số thấp hơn là tốt hơn, trong khi độ phân giải thời gian cải thiện ở tần số cao hơn.
Câu hỏi của tôi là: Có những biến đổi khác gần giống với hệ thống thính giác của con người không? Có ai đã cố gắng thiết kế một biến đổi giải phẫu / thần kinh phù hợp với hệ thống thính giác của con người càng gần càng tốt?
Ví dụ, người ta biết rằng tai người có phản ứng logarit với cường độ âm thanh . Người ta cũng biết rằng các đường đồng mức âm lượng bằng nhau khác nhau không chỉ theo cường độ, mà với khoảng cách về tần số của các thành phần quang phổ . Âm thanh chứa các thành phần quang phổ trong nhiều dải tới hạn được coi là to hơn ngay cả khi tổng áp suất âm không đổi.
Cuối cùng, tai người có độ phân giải thời gian giới hạn phụ thuộc tần số . Có lẽ điều này có thể được tính đến là tốt.