Làm cách nào để phân đoạn âm thanh cuộc gọi điện thoại thành im lặng / không im lặng?

Vấn đề của tôi là tôi không biết năng lượng của tiếng ồn nền, vì vậy tôi không thể chỉ ngưỡng năng lượng. Việc xử lý được thực hiện trong thời gian thực và tôi có khoảng 500msec để quyết định. Lý tưởng nhất, tôi muốn phụ âm thầm được coi là không im lặng.

audio speech-recognition

— Michael Litvin
nguồn

Tôi không có đủ thông tin để đưa ra câu trả lời đầy đủ, nhưng vấn đề của bạn được gọi là phát hiện hoạt động bằng giọng nói . Không có một cách tốt nhất để làm điều đó, và nếu bạn nhìn có lẽ bạn sẽ bắt gặp nhiều cách tiếp cận khác nhau. Có lẽ một số người khác có thể thịt nó ra một chút nữa.

— Jason R

@Michael Litvin, có một lớp các bộ lọc phi tuyến tính (được sử dụng trong 'phát hiện năng lượng' với tên là 'Teager-Kaiser'. Tôi nghĩ đó là tập hợp con của cái gọi là 'hạt nhân voltera'. Xin lỗi tôi không thể cung cấp bất kỳ biết thêm thông tin, nhưng nếu bạn tìm kiếm những từ đó bạn có thể tìm thấy những gì bạn đang tìm kiếm. Tôi biết rằng phương pháp Teager-Kaiser được sử dụng để 'khi' âm thanh cá voi bắt đầu VS chỉ là tiếng ồn nền.

— Spacey

Có một loạt các tham số mà bạn có thể xem xét:

Năng lượng tổng thể
Phổ ngắn hạn: Lời nói có phổ và tiếng ồn "giống như màu hồng" khá đặc biệt (xảy ra trong các phần không nói) có xu hướng màu trắng nếu nó bị chi phối điện hoặc "đỏ" (tức là tần số thấp) nếu đó là nền âm thanh tiếng ồn hoặc tiếng ồn micro
Thống kê biên độ. Hầu hết các tín hiệu nhiễu có phân phối Gaussian, lời nói gần với phân phối Laplace

Tôi nghĩ rằng sự kết hợp của cả ba nên đưa ra một sơ đồ phát hiện khá mạnh mẽ.

— Hilmar
nguồn