Theo câu hỏi trước đây của tôi, tôi đã tự hỏi nếu có bất kỳ thư viện phát hiện giọng nói nào đang tồn tại. Bằng cách phát hiện giọng nói, tôi có nghĩa là chuyển vào bộ đệm âm thanh và lấy lại chỉ mục nơi lời nói bắt đầu và dừng lại. Vì vậy, nếu tôi có 10 giây lấy mẫu âm thanh ở 44kHz, tôi sẽ mong đợi một loạt các số như:
44000
88000
123000
190334
...
Điều này cho thấy ví dụ rằng bài phát biểu bắt đầu một giây và sau đó kết thúc tại hai điểm thứ hai, v.v.
Điều tôi không tìm kiếm là nhận dạng giọng nói viết ra văn bản từ lời nói. Thật không may, đây là điều tôi thấy rất nhiều khi tôi google 'phát hiện giọng nói'.
Sẽ thật tuyệt nếu thư viện ở dạng C, C ++ hoặc thậm chí là Objective-C khi tôi đang viết một ứng dụng cho iPhone.
Cảm ơn!