Câu trả lời:
Phần mềm bạn có thể sử dụng là CMUSphinx . Không giống như đề xuất trong một câu trả lời khác Julius không phù hợp vì nó đòi hỏi người mẫu. Các mô hình để nhận dạng giọng nói từ vựng lớn không có sẵn cho Julius.
Bạn có thể sử dụng Pocketphinx để chuyển đổi tập tin âm thanh. Hai lệnh đó phải thực hiện công việc. Đầu tiên bạn chuyển đổi tập tin sang định dạng cần thiết và sau đó bạn nhận ra nó:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
The Pocketphinx chạy
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Kết quả sẽ được lưu trữ trong result.txt.
speech recognition
và voice command
công cụ ở đây: youtube.com/
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
làm việc. Có thể chúng không phải là gói tối ưu, nhưng chúng là những trận đấu tốt nhất tôi có thể tìm thấy trong kho.
Tôi biết điều này đã cũ, nhưng để mở rộng câu trả lời của Nikolay và hy vọng sẽ tiết kiệm thời gian cho ai đó trong tương lai, để có được phiên bản cập nhật của Pocketphinx, bạn cần phải biên dịch nó từ kho lưu trữ github hoặc sourceforge (không chắc chắn được giữ cho đến nay). Lưu ý -j8 có nghĩa là chạy song song 8 công việc riêng biệt nếu có thể; nếu bạn có nhiều lõi CPU hơn, bạn có thể tăng số lượng.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Sau đó, từ: https://sourceforge.net/projects/cmusphinx/files/Acoust%20and%20L Language% 20Models / US% 20English /
tải xuống các phiên bản mới nhất của cmusphinx-en-us-....tar.gz
vàen-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Sau đó, bạn cuối cùng có thể tiến hành các bước từ câu trả lời của Nikolay:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Nhân sư hoạt động ổn. Tôi sẽ không dựa vào nó để tạo ra một phiên bản văn bản dễ đọc, nhưng nó đủ tốt để bạn có thể tìm kiếm nó nếu bạn đang tìm kiếm một trích dẫn cụ thể. Điều đó đặc biệt hiệu quả nếu bạn sử dụng thuật toán tìm kiếm như Xapian ( http://www.lesbonscomptes.com/recoll/ ) chấp nhận ký tự đại diện và không yêu cầu các biểu thức tìm kiếm chính xác.
Hi vọng điêu nay co ich.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Tôi đang tìm cách chuyển đổi lời nói thành văn bản, bạn có thể thử mở Trung tâm phần mềm Ubuntu của mình và tìm kiếm Julius
Sự miêu tả
"Julius" là một phần mềm giải mã nhận dạng giọng nói liên tục (LVCSR) hai từ, hiệu suất cao dành cho các nhà nghiên cứu và phát triển liên quan đến lời nói.
Hoặc một tùy chọn khác không có trong Trung tâm phần mềm là Simon
... là một chương trình nhận dạng giọng nói nguồn mở và thay thế chuột và bàn phím.
Liên kết tham khảo
http://julius.sourceforge.jp/en_index.php
Bạn có thể sử dụng speechpad.pw bảng phiên âm