Tôi đang tìm cách phát triển một ứng dụng Android. Là một phần của chức năng, ứng dụng sẽ yêu cầu lấy mẫu ngẫu nhiên 3-5 giây âm thanh và phân loại nó có chứa lời nói của con người hay không. Tôi hiểu rằng khái niệm này được gọi là Phát hiện hoạt động bằng giọng nói?
Điều gì sẽ là cách tốt nhất để thực hiện điều này trên điện thoại di động. Tôi đã phát triển một hệ thống cơ bản sử dụng các tính năng và ngưỡng dựa trên năng lượng. Tôi hy vọng tìm thấy thứ gì đó ít bị ảnh hưởng bởi tiếng ồn, có thể sử dụng các tính năng như MFCC hoặc định dạng? Tôi đã trải qua một số bài báo, nhưng hầu hết trong số họ sẽ yêu cầu tôi thu thập dữ liệu và đào tạo mô hình. Có thư viện hoặc khung nào tôi có thể sử dụng để hoạt động trong thời gian thực không?