Biến đổi nào gần giống nhất với hệ thống thính giác của con người?


12

Các biến đổi Fourier thường được sử dụng để phân tích tần số của âm thanh. Tuy nhiên, nó có một số nhược điểm khi phân tích nhận thức của con người về âm thanh. Ví dụ, các thùng tần số của nó là tuyến tính, trong khi tai người phản ứng với tần số logarit, không tuyến tính .

Biến đổi Wavelet có thể sửa đổi độ phân giải cho các dải tần số khác nhau , không giống như biến đổi Fourier. Các thuộc tính của biến đổi wavelet cho phép hỗ trợ thời gian lớn cho tần số thấp hơn trong khi duy trì độ rộng thời gian ngắn cho tần số cao hơn.

Các sóng con Morlet liên quan chặt chẽ đến nhận thức của con người về thính giác. Nó có thể được áp dụng cho sao chép nhạc và tạo ra kết quả rất chính xác mà không thể sử dụng các kỹ thuật biến đổi Fourier. Nó có khả năng ghi lại các đợt ngắn lặp lại và xen kẽ các nốt nhạc với thời gian bắt đầu và kết thúc rõ ràng cho mỗi nốt nhạc.

Biến đổi Q không đổi (liên quan chặt chẽ với biến đổi sóng con Morlet) cũng rất phù hợp với dữ liệu âm nhạc . Vì đầu ra của biến đổi có biên độ / pha hiệu quả so với tần số log, nên cần ít thùng quang phổ hơn để bao phủ một phạm vi nhất định và điều này chứng tỏ hữu ích khi tần số trải qua vài quãng tám.

Biến đổi thể hiện sự giảm độ phân giải tần số với các thùng tần số cao hơn, điều này là mong muốn cho các ứng dụng thính giác. Nó phản chiếu hệ thống thính giác của con người, theo đó ở độ phân giải phổ tần số thấp hơn là tốt hơn, trong khi độ phân giải thời gian cải thiện ở tần số cao hơn.

Câu hỏi của tôi là: Có những biến đổi khác gần giống với hệ thống thính giác của con người không? Có ai đã cố gắng thiết kế một biến đổi giải phẫu / thần kinh phù hợp với hệ thống thính giác của con người càng gần càng tốt?

Ví dụ, người ta biết rằng tai người có phản ứng logarit với cường độ âm thanh . Người ta cũng biết rằng các đường đồng mức âm lượng bằng nhau khác nhau không chỉ theo cường độ, mà với khoảng cách về tần số của các thành phần quang phổ . Âm thanh chứa các thành phần quang phổ trong nhiều dải tới hạn được coi là to hơn ngay cả khi tổng áp suất âm không đổi.

Cuối cùng, tai người có độ phân giải thời gian giới hạn phụ thuộc tần số . Có lẽ điều này có thể được tính đến là tốt.


Bạn có áp đặt bất kỳ hạn chế toán học nào đối với "biến đổi" không?
Olli Niemitalo 30/03/2017

2
Kudos cho tất cả các liên kết!
Gilles

Không có biến đổi đơn lẻ nào có thể bắt chước một cách đầy đủ một hệ thống phức tạp như hệ thống thính giác của con người. Các mô hình HAS hiện tại sử dụng các kiến ​​trúc xử lý tín hiệu phức tạp và nhiều biến đổi mỗi mô hình hóa một khía cạnh khác của thính giác. Có thể bạn muốn xem xét từng mảnh mô hình.
Fat32

Câu trả lời:


9

Khi thiết kế các phép biến đổi như vậy, người ta phải tính đến các lợi ích cạnh tranh:

  • Sự trung thành với hệ thống thính giác của con người (thay đổi theo con người), bao gồm các khía cạnh phi tuyến tính hoặc thậm chí hỗn loạn (ù tai)
  • sự dễ dàng của công thức toán học cho phần phân tích
  • khả năng để rời rạc nó hoặc cho phép thực hiện nhanh chóng
  • sự tồn tại của một nghịch đảo ổn định phù hợp

Hai thiết kế gần đây đã lọt vào tai tôi: Biến đổi bước sóng Gammatone có động lực thính giác , Xử lý tín hiệu, 2014

Khả năng biến đổi sóng con liên tục (CWT) để cung cấp thời gian và định vị tần số tốt đã khiến nó trở thành một công cụ phổ biến trong phân tích tần số tín hiệu theo thời gian. Wavelets thể hiện tính chất Q không đổi, cũng được sở hữu bởi các bộ lọc màng cơ bản trong hệ thống thính giác ngoại vi. Các bộ lọc màng cơ bản hoặc bộ lọc thính giác thường được mô hình hóa bằng chức năng Gammatone, cung cấp một xấp xỉ tốt cho các phản ứng được xác định bằng thực nghiệm. Bộ lọc được lấy từ các bộ lọc này được gọi là bộ lọc Gammatone. Nói chung, phân tích sóng con có thể được ví như phân tích bộ lọc và do đó liên kết thú vị giữa phân tích sóng con tiêu chuẩn và ngân hàng lọc Gammatone. Tuy nhiên, chức năng Gammatone không đủ điều kiện chính xác như một wavelet vì thời gian trung bình của nó không bằng không. Chúng tôi chỉ ra cách các bước sóng thực sự có thể được xây dựng từ các chức năng của Gammatone. Chúng tôi phân tích các thuộc tính như khả năng chấp nhận, sản phẩm băng thông thời gian, khoảnh khắc biến mất, đặc biệt có liên quan trong bối cảnh của sóng con. Chúng tôi cũng chỉ ra cách các sóng con thính giác được đề xuất được tạo ra như là đáp ứng xung của hệ thống tuyến tính, bất biến thay đổi được điều chỉnh bởi một phương trình vi phân tuyến tính với các hệ số không đổi. Chúng tôi đề xuất thực hiện mạch tương tự của CWT đề xuất. Chúng tôi cũng chỉ ra làm thế nào các bước sóng có nguồn gốc Gammatone có thể được sử dụng để phát hiện điểm kỳ dị và phân tích tần số thời gian của các tín hiệu nhất thời. Chúng tôi cũng chỉ ra cách các sóng con thính giác được đề xuất được tạo ra như là đáp ứng xung của hệ thống tuyến tính, bất biến thay đổi được điều chỉnh bởi một phương trình vi phân tuyến tính với các hệ số không đổi. Chúng tôi đề xuất thực hiện mạch tương tự của CWT đề xuất. Chúng tôi cũng chỉ ra làm thế nào các bước sóng có nguồn gốc Gammatone có thể được sử dụng để phát hiện điểm kỳ dị và phân tích tần số thời gian của các tín hiệu nhất thời. Chúng tôi cũng chỉ ra cách các sóng con thính giác được đề xuất được tạo ra như là đáp ứng xung của hệ thống tuyến tính, bất biến thay đổi được điều chỉnh bởi một phương trình vi phân tuyến tính với các hệ số không đổi. Chúng tôi đề xuất thực hiện mạch tương tự của CWT đề xuất. Chúng tôi cũng chỉ ra làm thế nào các bước sóng có nguồn gốc Gammatone có thể được sử dụng để phát hiện điểm kỳ dị và phân tích tần số thời gian của các tín hiệu nhất thời.

Biến đổi ERBlet: Biểu diễn tần số thời gian dựa trên thính giác với sự tái tạo hoàn hảo , ICASSP 2013

Bài viết này mô tả một phương pháp để có được biểu diễn tần số thời gian có thể đảo ngược và hoàn toàn có thể đảo ngược của tín hiệu âm thanh. Dựa trên lý thuyết khung và biến đổi Gabor không cố định gần đây, một biểu diễn tuyến tính với độ phân giải phát triển theo tần số được xây dựng và triển khai như một bộ lọc không đồng nhất. Để phù hợp với độ phân giải tần số thời gian thính giác của con người, biến đổi sử dụng các cửa sổ Gaussian cách đều nhau trên thang tần số tâm lý âm thanh âm thanh ERB. Ngoài ra, các tính năng chuyển đổi có độ phân giải và dự phòng thích ứng. Mô phỏng cho thấy rằng việc tái cấu trúc hoàn hảo có thể đạt được bằng cách sử dụng các phương pháp lặp nhanh và tiền điều kiện ngay cả khi sử dụng một bộ lọc cho mỗi ERB và độ dự phòng rất thấp (1.08).

Và tôi cũng sẽ đề cập đến:

Biến đổi dựa trên thính giác để xử lý tín hiệu âm thanh , WASPAA 2009

Một biến đổi dựa trên thính giác được trình bày trong bài báo này. Thông qua quá trình phân tích, biến đổi bao phủ các tín hiệu miền thời gian thành một tập hợp đầu ra ngân hàng bộ lọc. Các đáp ứng tần số và phân phối của ngân hàng bộ lọc tương tự như trong màng đáy của ốc tai. Xử lý tín hiệu có thể được tiến hành trong miền tín hiệu bị phân tách. Thông qua quá trình tổng hợp, các tín hiệu bị phân tách có thể được tổng hợp trở lại tín hiệu ban đầu thông qua một tính toán đơn giản. Ngoài ra, các thuật toán nhanh cho tín hiệu thời gian rời rạc được trình bày cho cả biến đổi thuận và nghịch. Các biến đổi đã được phê duyệt trong lý thuyết và xác nhận trong các thí nghiệm. Một ví dụ về ứng dụng giảm nhiễu được trình bày. Biến đổi được đề xuất là mạnh mẽ đối với tiếng ồn nền và tính toán và không có sóng hài.


1
Điều này thật đúng với gì mà tôi đã tìm kiếm. Cảm ơn bạn.
dùng76284
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.