Phát hiện lời nói của con người trong âm thanh thời gian thực trên điện thoại di động

Tôi đang tìm cách phát triển một ứng dụng Android. Là một phần của chức năng, ứng dụng sẽ yêu cầu lấy mẫu ngẫu nhiên 3-5 giây âm thanh và phân loại nó có chứa lời nói của con người hay không. Tôi hiểu rằng khái niệm này được gọi là Phát hiện hoạt động bằng giọng nói?

Điều gì sẽ là cách tốt nhất để thực hiện điều này trên điện thoại di động. Tôi đã phát triển một hệ thống cơ bản sử dụng các tính năng và ngưỡng dựa trên năng lượng. Tôi hy vọng tìm thấy thứ gì đó ít bị ảnh hưởng bởi tiếng ồn, có thể sử dụng các tính năng như MFCC hoặc định dạng? Tôi đã trải qua một số bài báo, nhưng hầu hết trong số họ sẽ yêu cầu tôi thu thập dữ liệu và đào tạo mô hình. Có thư viện hoặc khung nào tôi có thể sử dụng để hoạt động trong thời gian thực không?

audio speech real-time

— Dony George
nguồn

Tôi tin rằng speex tại http://www.speex.org/ mã nguồn mở có VAD bên trong. Hãy thử xem nếu bạn có thể nhìn thấy nó và có được một số ý tưởng thực hiện, với việc làm mất giấy phép của họ.

— Đại liên
nguồn