Trong khi tìm kiếm một câu trả lời cho vấn đề này, tôi đã tìm thấy bảng này nên đã quyết định đăng chéo câu hỏi này của tôi từ Stack Overflow.
Tôi đang tìm kiếm một phương pháp xác định sự giống nhau giữa một đoạn âm thanh và giọng nói của con người, được thể hiện bằng số.
Tôi đã tìm kiếm khá nhiều, nhưng những gì tôi tìm thấy cho đến nay (chi tiết bên dưới) không thực sự phù hợp với những gì tôi cần:
Một phương pháp là sử dụng phần mềm nhận dạng giọng nói để lấy từ từ một đoạn âm thanh. Tuy nhiên, phương pháp này không thể đưa ra âm thanh "tương tự" như thế nào đối với lời nói của con người; nó thường có thể cho biết có âm thanh trong âm thanh hay không, nhưng nếu không có từ xác định, nó không thể nói gần âm thanh là có những từ đó.
Ví dụ: Nhân sư CMU , Chuồn chuồn , SHoUTPhương pháp hứa hẹn hơn được gọi là Phát hiện hoạt động bằng giọng nói (VAD). Tuy nhiên, điều này có xu hướng có cùng các vấn đề: các thuật toán / chương trình sử dụng VAD có xu hướng chỉ trả về việc có đạt được ngưỡng hoạt động hay không và không có giá trị "tương tự" trước hoặc sau ngưỡng đó. Ngoài ra, nhiều người chỉ tìm âm lượng, không giống với lời nói của con người.
Ví dụ: Speex , Listener , FreeSWITCH
Có ý kiến gì không?