Làm thế nào để xác định mức độ biến đổi của điểm số trong phạm vi tần số?


8

Đây là phần tiếp theo của một câu hỏi trước đó .

Tôi đang cố gắng phân tích tiếng thở và tiếng ngáy, và trong khi tôi có thể phát hiện ra tiếng ngáy khá tốt bây giờ, thì thở là một thách thức lớn hơn.

Tôi đã học được rằng nếu tôi phá vỡ dải tần được phân tích (khoảng 4KHz, được lấy mẫu ở khoảng 8KHz, với kích thước khung hình 1024) thành khoảng 5 phần phụ, rất thường một trong các phần phụ thể hiện độ nhạy tốt (sử dụng độ lệch phổ) trong tiếng ồn trong phạm vi tổng thể. Bí quyết là xác định phân loại nào để "tin tưởng" khi nào.

Có lẽ phân nhóm "đáng tin cậy" sẽ thể hiện sự biến thiên ở tốc độ trong khoảng 2Hz đến 0,05Hz, trong khi các phân nhóm "xấu" sẽ hoạt động ngẫu nhiên hơn, với hầu hết các biến thể của chúng là các khoảng thời gian ngắn hơn.

Tôi có thể kết hợp một số loại thuật toán để làm mịn các giá trị ở độ phân giải dưới giây và sau đó tính toán độ biến thiên trong các khoảng thời gian dài hơn, nhưng tôi tự hỏi liệu không có thuật toán "đóng hộp" cho loại điều này - có thể có thứ gì đó một mô-đun của lý thuyết đằng sau nó?

Bất kỳ đề xuất?

[Lưu ý: Tôi nhận ra rằng về mặt lý thuyết, người ta có thể sử dụng FFT để trích xuất thông tin này, nhưng có vẻ như sử dụng cây gậy bóng chày để tiêu diệt bọ chét. Có lẽ một cái gì đó nhẹ hơn một chút?]

Thêm:

Theo một nghĩa nào đó (để sử dụng một sự tương tự) Tôi đang cố gắng phát hiện tín hiệu "dải tần cơ sở" trong đường truyền RF (chỉ "RF" là tần số âm thanh và "dải tần cơ sở" dưới 8Hz). Và, theo một nghĩa nào đó, "RF" là "trải phổ" - âm thanh tôi muốn phát hiện có xu hướng tạo ra nhiều sóng hài và / hoặc có một số thành phần tần số riêng biệt, vì vậy nếu một dải phổ quá ồn tôi có thể có thể sử dụng cái khác Mục tiêu là về cơ bản để xác định một số số liệu tương tự SNR cho các dải tần số khác nhau, với giả định rằng hầu hết "nhiễu" là> 2Hz và tín hiệu của tôi nhỏ hơn 2Hz.

Tôi có đầu vào cho thuật toán này các biên độ thô (tổng biên độ FFT ở tất cả các tần số được bao gồm) cho mỗi băng tần, được đo ở các khoảng 8Hz.

(Cần lưu ý rằng, trong khi tôi chưa thực hiện bất kỳ phép đo SNR chính thức nào, SNR tổng thể trên phổ được xử lý dường như thường ở gần hoặc dưới 1.0 - nếu bạn quan sát trực quan đường bao âm thanh trong một công cụ như Audacity không điều chế phong bì là đáng chú ý (mặc dù tai có thể phân biệt rõ ràng tiếng thở). Đây là lý do tại sao cần phải phân tích các dải để tìm những người có SNR đàng hoàng.)


Theo sự thay đổi, bạn có nghĩa là trong thời gian hoặc trên các tần số?
Phonon

Sự thay đổi theo thời gian. Ở tốc độ giữa khoảng 0,05Hz đến 2Hz, bỏ qua sự biến đổi ở các khoảng thời gian dài hơn hoặc ngắn hơn.
Daniel R Hicks

1
@DanielRHicks Chúng tôi đang cố gắng phát hiện chính xác điều gì ở đây? Tôi muốn chắc chắn rằng tôi hiểu (các) câu hỏi - Tôi đang cố gắng định lượng (các) tính năng bạn muốn đo trước tiên.
Spacey

Xem các chi tiết được thêm vào.
Daniel R Hicks

Câu trả lời:


4

Daniel,

Khi đọc lại câu hỏi của bạn, có vẻ như những gì tôi đã học được gọi là 'Băng thông Gabor "có thể hữu ích cho bạn trong trường hợp này, vì bạn đang cố gắng đo lường' độ biến thiên phổ '. (Dilip cung cấp một câu trả lời hay cho tôi câu hỏi về khoảnh khắc quang phổ ở đây).

Khi tôi nghiên cứu sâu hơn, Băng thông Gabor dường như thực sự chỉ là thước đo mức độ "lan truyền" của quang phổ từ ý nghĩa của nó. (Do đó thao túng khoảnh khắc).

Hãy xem và xem những gì bạn nghĩ.



1

Những gì bạn cần dường như lớn hơn nhiều so với một con bọ chét. Vì vậy, bạn có thể cần phải đi theo hướng ngược lại, và làm nhiều hơn là chỉ một FFT. Có lẽ phân tích cepstrum hoặc cepstral tần số thấp để tìm tần số "exiter" của bạn.


Vâng, có vẻ như nó đáng để xem xét (hoặc tôi nên nói otni?).
Daniel R Hicks

Tôi đoán rằng tôi không thấy một cách rõ ràng để áp dụng "cepstrum" cho dữ liệu của mình để phân tích các khoảng thời gian dài hơn khoảng thời gian khung của tôi.
Daniel R Hicks

1

X(m,n)

Đây là những gì tôi đề nghị:

Đối với mỗi n:

  • rn(l)X(:,n)
  • rn(l)

Chọn băng con có mức cực đại tự tương quan cao nhất (= càng "cao độ").

Các biện pháp đỉnh cao để xem xét:

  • maxlLrn(l)rn(0)
  • kurtosis
  • tỷ lệ trung bình hình học và trung bình số học

Những loại số liệu này được sử dụng để phân biệt lời nói / giọng nói không được truyền đạt.


Bạn có thể giải thích rõ giá trị của ý nghĩa hình học so với ý nghĩa của arithmatic mang lại không? Ngoài ra, khi bạn đề cập tối đa sự tự tương quan đã chuẩn hóa so với tự động tương quan tại tau = 0, tại sao đó là một bằng khen?
Spacey
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.