Có phần mềm nhận dạng giọng nói đàng hoàng nào cho Linux không?

49

Phiên bản ngắn của câu hỏi: Tôi đang tìm kiếm một phần mềm nhận dạng giọng nói chạy trên Linux và có độ chính xác và khả năng sử dụng khá. Bất kỳ giấy phép và giá cả là tốt. Không nên giới hạn các lệnh thoại, vì tôi muốn có thể đọc chính tả văn bản.

Thêm chi tiết:

Tôi đã không hài lòng thử những điều sau đây:

Nhân sư CMU
CVoiceControl
Đôi tai
Julius
Kaldi (ví dụ: máy chủ Kaldi GStreamer )
IBM ViaVoice (được sử dụng để chạy trên Linux nhưng đã bị ngừng từ nhiều năm trước)
Bộ công cụ NICO ANN
OpenMindSpeech
ASTH
kêu la, hét lên
silvius (được xây dựng trên bộ công cụ nhận dạng giọng nói Kaldi)
Simon lắng nghe
ViaVoice / Xvoice
Rượu + Dragon NaturallySpeaking + NatLink + chuồn chuồn + chuồn chuồn kim
https://github.com/DragonComputer/Dragonfire : chỉ chấp nhận lệnh thoại

Tất cả các giải pháp Linux gốc được đề cập ở trên đều có độ chính xác và khả năng sử dụng kém (hoặc một số không cho phép đọc chính tả văn bản miễn phí mà chỉ sử dụng lệnh thoại). Với độ chính xác kém, tôi có nghĩa là độ chính xác thấp hơn đáng kể so với phần mềm nhận dạng giọng nói mà tôi đã đề cập dưới đây cho các nền tảng khác. Đối với Wine + Dragon NataturalSpeaking, theo kinh nghiệm của tôi, nó liên tục bị sập và dường như tôi không phải là người duy nhất gặp vấn đề như vậy.

Trên Microsoft Windows, tôi sử dụng Dragon NataturalSpeaking, trên Apple Mac OS XI sử dụng Apple Dictation và DragonDictate, trên Android tôi sử dụng tính năng nhận dạng giọng nói của Google và trên iOS tôi sử dụng tính năng nhận dạng giọng nói tích hợp của Apple.

Baidu Nghiên cứu công bố ngày hôm qua các đang cho thư viện nhận dạng giọng nói của nó sử dụng Connectionist Temporal Phân loại thực hiện với Torch. Điểm chuẩn từ Gigaom rất đáng khích lệ như trong ảnh chụp màn hình bên dưới, nhưng tôi không biết có bất kỳ trình bao bọc tốt nào để làm cho nó có thể sử dụng được mà không cần mã hóa (và một bộ dữ liệu đào tạo lớn):

Có tồn tại một số dự án nguồn mở rất alpha:

https://github.com/mozilla/DeepSpeech (một phần của dự án Vaani của Mozilla: http://vaani.io ( gương ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, một hệ thống để kiểm soát hệ thống Linux bằng Dragon NataturalSpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (sẽ được Google phát hành, được đề cập tại Interspeech 2018)

Tôi cũng nhận thức được nỗ lực này trong việc theo dõi các trạng thái của nghệ thuật và kết quả gần đây (thư mục) về nhận dạng giọng nói. cũng như điểm chuẩn này của các API nhận dạng giọng nói hiện có .

Tôi biết về Aenea , cho phép nhận dạng giọng nói qua Dragonfly trên một máy tính để gửi các sự kiện đến một máy tính khác, nhưng nó có một số chi phí trễ:

Tôi cũng nhận thức được hai cuộc đàm phán này khám phá tùy chọn Linux để nhận dạng giọng nói:

2016 - HY VỌNG thứ mười một: Mã hóa bằng giọng nói với nhận dạng giọng nói nguồn mở (David Williams-King)
2014 - Pycon: Sử dụng Python để Code bằng giọng nói (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
nguồn

2

Một số chi tiết về những gì bạn thấy "không thỏa mãn" có thể thúc đẩy chủ đề đăng bài thú vị nhưng khá chung chung của bạn. Ví dụ: điều gì đặc biệt khiến bạn thấy không hài lòng về sự kết hợp "Rượu + Rồng tự nhiên"? (làm thế nào mà nó không thể sao chép trải nghiệm Windows của bạn?)

— Theophrastus

1

@Theophrastus Về cơ bản tất cả các giải pháp Linux gốc đều có độ chính xác và khả năng sử dụng kém. Với độ chính xác kém, tôi có nghĩa là độ chính xác thấp hơn đáng kể so với phần mềm nhận dạng giọng nói mà tôi đã đề cập cho các nền tảng khác. Đối với rượu vang + Dragon NaturallySpeaking, trong kinh nghiệm của tôi nó vẫn không ngừng rơi, và tôi dường như không phải là chỉ có một có vấn đề như vậy không may ( appdb.winehq.org/... )

— Franck Dernoncourt

1

Tôi chưa thử những thứ này, nhưng trong trường hợp ai đó thấy nó hữu ích: github.com/Uberi/speech_recognition và jasperproject.github.io và github.com/benoitfragit/google2ub

— Hatshepsut

Có một trong những phần mềm này có công cụ dòng lệnh không? Sẽ rất thú vị khi kết hợp nhận dạng giọng nói với một công cụ nhấn phím và mousemove như xdotool ( github.com/jordansissel/xdotool ) hoặc xsendkey ( github.com/kyoto/sendkeys ).

— baptx

13

Ngay bây giờ tôi đang thử nghiệm sử dụng kết nối KDE kết hợp với nhận dạng giọng nói của Google trên điện thoại thông minh Android của tôi.

Kết nối KDE cho phép bạn sử dụng thiết bị Android làm thiết bị đầu vào cho máy tính Linux của mình (cũng có một số tính năng khác). Bạn cần cài đặt ứng dụng kết nối KDE từ cửa hàng Google play trên điện thoại thông minh / máy tính bảng của bạn và cài đặt cả kdeconnect và Indicator-kdeconnect trên máy tính Linux của bạn. Đối với các hệ thống Ubuntu, quá trình cài đặt diễn ra như sau:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Nhược điểm của cài đặt này là nó cài đặt một loạt các gói KDE mà bạn không cần nếu bạn không sử dụng môi trường máy tính để bàn KDE.

Khi bạn ghép nối thiết bị Android của mình với máy tính (chúng phải nằm trên cùng một mạng), bạn có thể sử dụng bàn phím Android và sau đó nhấp / nhấn vào mic để sử dụng nhận dạng giọng nói của Google. Khi bạn nói chuyện, văn bản sẽ bắt đầu xuất hiện ở bất cứ nơi nào con trỏ của bạn hoạt động trên máy tính Linux của bạn.

Về kết quả, chúng hơi hỗn tạp đối với tôi vì tôi hiện đang viết một số tài liệu vật lý thiên văn kỹ thuật và nhận dạng giọng nói của Google đang vật lộn với biệt ngữ mà bạn thường không đọc. Cũng quên nó tìm ra dấu câu hoặc viết hoa đúng.

— giảm xóc
nguồn

4

Hiện tại, chỉ có máy tính xách tay Thoại hoạt động trong Linux.

— Alexei
nguồn

2

Cảm ơn, nó chỉ hoạt động trong trình duyệt Chrome.

— Franck Dernoncourt

3

Khi có thêm một Linuxer đang tìm kiếm một chương trình chuyển lời nói thành văn bản (chính tả) hữu ích, tôi đã xem qua speechpad.pw:

nó nhận ra tiếng mẹ đẻ của tôi rất tốt
nó hoạt động nhanh và rất đáng tin cậy

Nhược điểm:

tất nhiên đó là phần mềm độc quyền và đóng từ Google
một dịch vụ của Google sẽ lắng nghe, xử lý và lưu trữ mọi từ bạn nói
âm thanh và văn bản sẽ được xử lý và rõ ràng được lưu trữ bởi Google
speechpad.pw yêu cầu phí đăng ký hàng tháng / quaterly / hàng năm
speechpad.pw chỉ chạy dưới dạng addon cho trình duyệt Google Chrome - không có trình duyệt nào khác

Vì vậy, speechpad.pw rất độc quyền và cũng là nguồn đóng và cũng bị ràng buộc với Google mà tất cả chúng ta đều biết là dữ liệu meta không ngủ, thông tin cá nhân và người thu thập nội dung cá nhân.

Những nhược điểm này làm cho nó trở thành một ứng dụng không phù hợp với tôi mặc dù bản thân nhận dạng giọng nói hoạt động rất tốt - tốt hơn nhiều so với bất kỳ thứ gì tôi đã thấy cho đến nay.

— quá
nguồn

Cảm ơn, có nhược điểm đáng kể, đặc biệt là nó chỉ hoạt động trong trình duyệt Chrome.

— Franck Dernoncourt

1

Bạn có thể sử dụng Google Docs trên Chrome và sử dụng tùy chọn "Công cụ" »" Nhập giọng nói ... "của họ. Có lẽ chính xác cùng một phần mềm nhận dạng giọng nói, nhưng nó miễn phí. Sau đó sao chép dán kết quả từ tài liệu của bạn vào bất cứ nơi nào bạn cần văn bản.

— Alexis Wilke

2

Ứng dụng Chrome "VoiceNote II" ( http://voicenote.in/ ) đang hoạt động rất tốt trên máy Xubfox 16.04 của tôi. Không cần đào tạo giọng nói, và thiết lập rất đơn giản. Một tìm kiếm để tìm thấy nó, một lần nhấp để cài đặt, một lần nhấp để tạo lối tắt và để Desktop liên kết nó.

— Sửa chữa công nghệ Indy
nguồn

Cảm ơn, chỉ hoạt động trong Google Chrome

— Franck Dernoncourt

0

Tôi sẽ đề nghị sử dụng rồng trên điện thoại hoặc máy tính bảng của bạn, sau đó gửi email văn bản cho chính bạn. Đó là một lực cản nhưng nó hoạt động và rất chính xác. Nếu bạn khăng khăng sử dụng Linux cho việc này, việc có được màn hình thứ hai sẽ giúp cuộc sống sao chép và quá khứ dễ dàng hơn nhiều.

Tôi chưa thử điều này nhưng bạn có thể sử dụng hoặc điều chỉnh chương trình Trò chuyện Bluetooth Python với rồng trên máy tính bảng / điện thoại của bạn. Cũng có thể có các ứng dụng bàn phím từ xa cho các thiết bị di động có thể hỗ trợ nhập chính tả.

Tôi sẽ thử nghiệm và cố gắng lấy lại cho bạn một cái gì đó dứt khoát hơn.

— người dùng273470
nguồn

0

Tôi đang sử dụng ứng dụng KD Connect. nó đang hoạt động khá hiệu quả! Tôi có thể để mắt trên màn hình trong khi nói chuyện với điện thoại trên bàn. Nhược điểm duy nhất là điều này đang được thực hiện thông qua bàn phím Google. nó không phải là miễn phí, nguồn gốc, cũng không phải là nguồn mở. Nhận xét này đã được đăng mà không cần chỉnh sửa

— Josh Levine
nguồn

-2

Bạn có thể sử dụng lời nói để nhắn tin trong ứng dụng Linux Ứng dụng này sử dụng Google Speech Api và mô đun tích hợp nhị phân cho Linux 32 hoặc 64 bit. Bạn có thể thấy một bản trình bày ngắn về việc sử dụng các công cụ speechpad.pw trong Ubuntu

— Pavel Popov
nguồn

1

OP đang tìm kiếm một công cụ chuyển lời nói thành văn bản. Đó chỉ là một trình bao bọc giao diện người dùng web (và một trình điều khiển xấu ở đó) xung quanh công cụ STT.

— Cerin