Thư viện để phân biệt mọi người bằng âm sắc giọng nói của họ

Nói rằng có 3 người trong phòng. Mỗi người trong số họ có một âm sắc giọng nói độc đáo. Tôi muốn nhận ra mọi người bằng âm sắc của họ và biết ai đang nói.

audio voice

— Dmitry
nguồn

Nhiệm vụ thực hiện ghi âm âm thanh liền kề dài và tách nó thành nhiều phần trong đó chỉ có một người nói - không có bất kỳ kiến thức nào trước về đặc điểm giọng nói của mỗi người nói - được gọi là "Diaration loa". Bạn có thể tìm thấy các liên kết đến mã nghiên cứu trên trang wikipedia .

Nếu bạn có bản ghi âm trước của từng giọng nói và muốn phân loại, đây là một vấn đề hơi khác (nhận dạng loa hoặc nhận dạng loa). Các công cụ phần mềm có sẵn ở đây (lưu ý rằng các gói nhận dạng giọng nói cho mục đích chung như Sphinx hoặc HTK đủ linh hoạt để được dỗ dành để thực hiện điều đó).

— pichenettes
nguồn

Ồ Cảm ơn cho một câu trả lời rộng rãi như vậy. Tôi quan tâm đến việc thực hiện trực tiếp này, về cơ bản là phát hiện khi nào và ai đang nói và có thể viết nó vào một tệp riêng biệt hoặc chỉ viết để ghi nhật ký khi nào và ai nói.

— Dmitry

Bạn có tìm thấy bất kỳ thư viện hoạt động trong thời gian thực. Tôi đã xem qua API nhận dạng giọng nói của IBM Watson, nhưng nó không phải là nguồn mở.

— Subleseeker