Phiên bản ngắn của câu hỏi: Tôi đang tìm kiếm một phần mềm nhận dạng giọng nói chạy trên Linux và có độ chính xác và khả năng sử dụng khá. Bất kỳ giấy phép và giá cả là tốt. Không nên giới hạn các lệnh thoại, vì tôi muốn có thể đọc chính tả văn bản.
Thêm chi tiết:
Tôi đã không hài lòng thử những điều sau đây:
- Nhân sư CMU
- CVoiceControl
- Đôi tai
- Julius
- Kaldi (ví dụ: máy chủ Kaldi GStreamer )
- IBM ViaVoice (được sử dụng để chạy trên Linux nhưng đã bị ngừng từ nhiều năm trước)
- Bộ công cụ NICO ANN
- OpenMindSpeech
- ASTH
- kêu la, hét lên
- silvius (được xây dựng trên bộ công cụ nhận dạng giọng nói Kaldi)
- Simon lắng nghe
- ViaVoice / Xvoice
- Rượu + Dragon NaturallySpeaking + NatLink + chuồn chuồn + chuồn chuồn kim
- https://github.com/DragonComputer/Dragonfire : chỉ chấp nhận lệnh thoại
Tất cả các giải pháp Linux gốc được đề cập ở trên đều có độ chính xác và khả năng sử dụng kém (hoặc một số không cho phép đọc chính tả văn bản miễn phí mà chỉ sử dụng lệnh thoại). Với độ chính xác kém, tôi có nghĩa là độ chính xác thấp hơn đáng kể so với phần mềm nhận dạng giọng nói mà tôi đã đề cập dưới đây cho các nền tảng khác. Đối với Wine + Dragon NataturalSpeaking, theo kinh nghiệm của tôi, nó liên tục bị sập và dường như tôi không phải là người duy nhất gặp vấn đề như vậy.
Trên Microsoft Windows, tôi sử dụng Dragon NataturalSpeaking, trên Apple Mac OS XI sử dụng Apple Dictation và DragonDictate, trên Android tôi sử dụng tính năng nhận dạng giọng nói của Google và trên iOS tôi sử dụng tính năng nhận dạng giọng nói tích hợp của Apple.
Baidu Nghiên cứu công bố ngày hôm qua các đang cho thư viện nhận dạng giọng nói của nó sử dụng Connectionist Temporal Phân loại thực hiện với Torch. Điểm chuẩn từ Gigaom rất đáng khích lệ như trong ảnh chụp màn hình bên dưới, nhưng tôi không biết có bất kỳ trình bao bọc tốt nào để làm cho nó có thể sử dụng được mà không cần mã hóa (và một bộ dữ liệu đào tạo lớn):
Có tồn tại một số dự án nguồn mở rất alpha:
- https://github.com/mozilla/DeepSpeech (một phần của dự án Vaani của Mozilla: http://vaani.io ( gương ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, một hệ thống để kiểm soát hệ thống Linux bằng Dragon NataturalSpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (sẽ được Google phát hành, được đề cập tại Interspeech 2018)
Tôi cũng nhận thức được nỗ lực này trong việc theo dõi các trạng thái của nghệ thuật và kết quả gần đây (thư mục) về nhận dạng giọng nói. cũng như điểm chuẩn này của các API nhận dạng giọng nói hiện có .
Tôi biết về Aenea , cho phép nhận dạng giọng nói qua Dragonfly trên một máy tính để gửi các sự kiện đến một máy tính khác, nhưng nó có một số chi phí trễ:
Tôi cũng nhận thức được hai cuộc đàm phán này khám phá tùy chọn Linux để nhận dạng giọng nói:
- 2016 - HY VỌNG thứ mười một: Mã hóa bằng giọng nói với nhận dạng giọng nói nguồn mở (David Williams-King)
- 2014 - Pycon: Sử dụng Python để Code bằng giọng nói (Tavis Rudd)