Ứng dụng nhận dạng giọng nói để chuyển đổi MP3 thành văn bản?

27

Có ai biết một ứng dụng có thể chuyển đổi âm thanh thành văn bản không? Tôi đang chạy Ubuntu 12.04 LTS.

software-recommendation speech-recognition

— Kopano
nguồn

Tôi cho rằng đó là văn bản nói. Ngôn ngữ đó là văn bản nào?

— Martin Uting

Các văn bản bài phát biểu bằng tiếng Anh đơn giản.

— Kopano

21

Phần mềm bạn có thể sử dụng là CMUSphinx . Không giống như đề xuất trong một câu trả lời khác Julius không phù hợp vì nó đòi hỏi người mẫu. Các mô hình để nhận dạng giọng nói từ vựng lớn không có sẵn cho Julius.

Bạn có thể sử dụng Pocketphinx để chuyển đổi tập tin âm thanh. Hai lệnh đó phải thực hiện công việc. Đầu tiên bạn chuyển đổi tập tin sang định dạng cần thiết và sau đó bạn nhận ra nó:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

The Pocketphinx chạy

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Kết quả sẽ được lưu trữ trong result.txt.

— Nikolay Shmyrev
nguồn

Ngoài ra, như là một bổ sung cho câu trả lời này, có một bản demo tuyệt vời của cả hai speech recognitionvà voice commandcông cụ ở đây: youtube.com/

— Kẻ

Làm thế nào để bạn thêm một mô hình âm thanh vào hệ thống?

— jarno 8/2/2015

Bạn chỉ cần tải xuống và giải nén, không có thứ gọi là "thêm vào hệ thống"

— Nikolay Shmyrev

@NikolayShmyrev Tôi nên giải nén nó ở đâu để Pocketphinx_continupt tìm thấy nó?

— jarno 8/2/2015

4

Chà, tôi đã cài đặt các gói Pocketphinx-utils, Pocketphinx-hmm-en-hub4wsj và Pocketphinx-lm-en-hub4 trong kho vũ trụ của Ubuntu 14.04. Sau đó pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.loglàm việc. Có thể chúng không phải là gói tối ưu, nhưng chúng là những trận đấu tốt nhất tôi có thể tìm thấy trong kho.

— jarno

12

Tôi biết điều này đã cũ, nhưng để mở rộng câu trả lời của Nikolay và hy vọng sẽ tiết kiệm thời gian cho ai đó trong tương lai, để có được phiên bản cập nhật của Pocketphinx, bạn cần phải biên dịch nó từ kho lưu trữ github hoặc sourceforge (không chắc chắn được giữ cho đến nay). Lưu ý -j8 có nghĩa là chạy song song 8 công việc riêng biệt nếu có thể; nếu bạn có nhiều lõi CPU hơn, bạn có thể tăng số lượng.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Sau đó, từ: https://sourceforge.net/projects/cmusphinx/files/Acoust%20and%20L Language% 20Models / US% 20English / tải xuống các phiên bản mới nhất của cmusphinx-en-us-....tar.gzvàen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Sau đó, bạn cuối cùng có thể tiến hành các bước từ câu trả lời của Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Nhân sư hoạt động ổn. Tôi sẽ không dựa vào nó để tạo ra một phiên bản văn bản dễ đọc, nhưng nó đủ tốt để bạn có thể tìm kiếm nó nếu bạn đang tìm kiếm một trích dẫn cụ thể. Điều đó đặc biệt hiệu quả nếu bạn sử dụng thuật toán tìm kiếm như Xapian ( http://www.lesbonscomptes.com/recoll/ ) chấp nhận ký tự đại diện và không yêu cầu các biểu thức tìm kiếm chính xác.

Hi vọng điêu nay co ich.

— Jonathan Perry-Houts
nguồn

4

mọi thứ hoạt động như một lá bùa nhưng trong trường hợp của tôi, tôi đã phải chạy theo lệnh để sửa

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— Vijay Dohare

Điều này cũng được khuyến nghị tại cmusphinx.github.io/wiki/tutorialpocketsphinx/iêu

— andrybak

11

Tôi đang tìm cách chuyển đổi lời nói thành văn bản, bạn có thể thử mở Trung tâm phần mềm Ubuntu của mình và tìm kiếm Julius

Sự miêu tả

"Julius" là một phần mềm giải mã nhận dạng giọng nói liên tục (LVCSR) hai từ, hiệu suất cao dành cho các nhà nghiên cứu và phát triển liên quan đến lời nói.

Hoặc một tùy chọn khác không có trong Trung tâm phần mềm là Simon

... là một chương trình nhận dạng giọng nói nguồn mở và thay thế chuột và bàn phím.

Liên kết tham khảo

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
nguồn

1

Bạn có thể sử dụng speechpad.pw bảng phiên âm

Xem video sử dụng phiên âm

— alexei
nguồn

Điều đó có vẻ tuyệt vời mặc dù tôi không nghĩ rằng nó trả lời câu hỏi để có được phiên âm của một tập tin hiện có. Điều đó đã được nói, tôi vừa thử Sphinx và nó đã thất bại thảm hại ... phiên âm đã sai 99,9%.

— Alexis Wilke