Văn bản âm thanh tự nhiên để nói?


86

Tôi đang tìm kiếm một số phần mềm dễ dàng để cài đặt văn bản thành phần mềm nói cho Ubuntu nghe có vẻ tự nhiên. Tôi đã cài đặt Festival, Gespeakerv.v., nhưng không có gì nghe rất tự nhiên. Tất cả rất tổng hợp và khó hiểu.

Có khuyến nghị nào không?


Câu trả lời:


51

SVOX pico2wave

Một TTS rất tối giản, một âm thanh tốt hơn so với đặc biệt hoặc mbrola (theo suy nghĩ của tôi). Một số thông tin ở đây .

Tôi không hiểu tại sao pico2wave, so với đặc biệt hoặc mbrola, hiếm khi được thảo luận. Nó nhỏ, nhưng âm thanh thực sự tốt (tự nhiên). Nếu không sửa đổi, bạn sẽ nghe thấy một giọng nữ nghe tự nhiên.

VÀ ... so với Mbrola, nó nhận ra Đơn vị và nói nó đúng cách!
Ví dụ:

  • 2 ° C → hai độ
  • 2m → hai mét
  • 2kg → hai kilôgam

Sau khi cài đặt, tôi sử dụng nó trong một kịch bản:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Sau đó chạy nó với văn bản mong muốn:

<scriptname>.sh "hello world"

hoặc đọc nội dung của toàn bộ tệp:

<scriptname>.sh "$(cat <filename>)"

Đó là tất cả để có một TTS hoạt động nhẹ, ổn định trên Ubuntu.


1
Theo như tôi có thể thấy, nó chỉ sử dụng các tham số cli làm đầu vào. Có cách nào để tôi có thể lấy pico2wave để đọc văn bản từ tên tệp không?
Carlos Eugenio Thompson Pinzón

13
pico2wavelà gói libttspico-utilstrong các phiên bản gần đây của Ubuntu. @ CarlosEugenioThndryPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@ CarlosEugenioThndryPinzón pico2wave -w a.wav "$(input.txt)"=). Đồng ý rằng giao diện CLI này có thiết kế xấu: không giống như phần lớn CLI và có thể đạt được độ dài tối đa của hệ điều hành CLI .
Ciro Santilli 心 心

1
@Koen tôi không biết! :-) Giống như bất kỳ vấn đề nào khác, hãy thử tạo một ví dụ tối thiểu, ví dụ: sử dụngecho {1..1000}
Ciro Santilli 心 心

1
@ user49557 Chúng tôi không có ý định chiếm đoạt câu hỏi của người khác, vì vậy có lẽ bạn có thể tạo một câu hỏi mới, giải thích chính xác những gì bạn đã cài đặt và những gì đã sai, và sau đó tôi luôn có thể thử và giúp bạn (mặc dù không có gì đảm bảo , Tôi không phải là chuyên gia: P)
Koen

22

Nói đi!

Tôi tin rằng Ive đã tìm thấy phần mềm TTS tốt nhất miễn phí bằng cách sử dụng tiện ích mở rộng Google Chrome có tên "speakIt". Điều này chỉ hoạt động trong trình duyệt Chrome cho tôi trên Ubuntu. Nó không hoạt động với Chromium vì một số lý do. SayIt đi kèm với hai giọng nữ mà cả hai âm thanh rất thực tế so với mọi thứ khác ngoài kia. Có ít nhất bốn giọng nói nam & nữ được liệt kê thêm các tiện ích mở rộng Chrome nếu bạn tìm kiếm trên Cửa hàng Chrome trực tuyến bằng cách sử dụng "TTS" làm truy vấn của mình.

Cách sử dụng : Để sử dụng trên một trang web. bạn làm nổi bật văn bản bạn muốn đọc và nhấp chuột phải và "Nói" hoặc nhấp vào biểu tượng Nói trên thanh trên cùng của Chrome.


Người dùng Firefox cũng có hai tùy chọn. Trong các addon Firefox, thực hiện tìm kiếm TTS và bạn sẽ tìm thấy "Nhấp vào Nói" và cả "Chuyển văn bản thành giọng nói". Các giọng nói không tốt bằng giọng nói của Chrome Nói, nhưng chắc chắn có thể sử dụng được.

Tiện ích mở rộng của chương trình speakIt sử dụng công nghệ iSpeech và với mức giá 20 đô la một năm, trang web có thể chuyển đổi văn bản thành các tệp âm thanh MP3. Bạn có thể nhập văn bản, URL, nguồn cấp RSS, cũng như các tài liệu như TXT, DOC và PDF và xuất ra MP3. Bạn có thể tạo podcast, nhúng âm thanh, v.v ... Đây là một liên kếtmột mẫu âm thanh của chúng (không biết liên kết sẽ kéo dài bao lâu).


3
Thật không may, không có tùy chọn trình duyệt nào hoạt động cho các tệp PDF. Bạn đã đi qua một trong đó không? Tôi muốn có thể chọn các đoạn để đọc từ PDF (nghĩa là không phải dán bit vào thiết bị đầu cuối hoặc thiết bị khác)
James Owers

1
tiện ích mở rộng này hoạt động với tôi trên chromium 50.0.2661.94 bằng Debian 8.4 và thật tuyệt vời! tôi đặc biệt thích giọng nữ tiếng anh khiếu nại duy nhất của tôi là nó tạm dừng quá lâu trên dấu phẩy.
mulllhausen

Nó thường phát âm sai các từ và cũng mất thời gian để gửi văn bản đến một máy chủ riêng thay vì chỉ sử dụng hệ thống của riêng bạn.
Goddard

14

Pico và đặc biệt là những người vui vẻ và dễ dàng để làm việc, nhưng họ không tốt lắm. Các giọng nói lễ hội mặc định cũng không tốt. Tuy nhiên, Festival là một khung phát biểu dựa trên sơ đồ, trong đó một số nhà nghiên cứu đã xây dựng giọng nói bổ trợ tốt hơn nhiều. Bạn có thể dễ dàng vượt qua chất lượng pico2wave trên kho Ubuntu, vì một trong những giọng nói đó có sẵn dưới dạng gói làm sẵn.

Để làm cho Lễ hội trở nên tự nhiên, đây là những việc cần làm:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Bạn có thể thực hiện nó từ dòng lệnh bằng cách sử dụng -b(hoặc --batch) và đặt từng lệnh vào dấu ngoặc đơn:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Bạn có thể nhận được các giọng nói khá tốt khác từ kho lưu trữ Nitech, nhưng việc cài đặt chúng rất khó khăn và các đường dẫn mặc định đã thay đổi để các tham chiếu tên tệp trong các tệp lược đồ được đóng gói có thể cần phải được chỉnh sửa thủ công để hoạt động trên Ubuntu stock.


2
Btw, trong Ubuntu 16.04, gói này dường như bị thiếu. Bạn có thể tải và cài đặt deb từ Debian và nó sẽ làm việc tốt: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-SLT-hts_0.2010.10. 25-2_all.deb
Jon Watte

13

TTS Google ™ đơn giản

Cập nhật từ trang dự án (2019-02) : Dự án này hiện không rõ ràng và sẽ duy trì như vậy trong tương lai gần


Do không có giải pháp thay thế tốt hơn nên tôi đã viết một tập lệnh bash có giao diện với tập lệnh perl của Michal Fapso để cung cấp TTS thông qua Google Dịch. Từ mô tả dự án:

Mục đích là cung cấp giao diện dễ sử dụng cho đầu ra văn bản thành giọng nói thông qua hệ thống tổng hợp giọng nói của Google. Tùy chọn dự phòng sử dụng pico2wave sẽ tự động cung cấp tổng hợp TTS trong trường hợp không tìm thấy kết nối Internet.

Như hiện tại, trình bao bọc hỗ trợ đọc từ đầu vào tiêu chuẩn, tệp văn bản thuần túy và lựa chọn X (văn bản được tô sáng).

Các tính năng chính là:

  • tổng hợp TTS trực tuyến qua Google dịch
  • tổng hợp TTS ngoại tuyến qua pico2wave
  • hỗ trợ nhiều ngôn ngữ khác nhau
  • có thể đọc từ CLI, tệp văn bản và văn bản được tô sáng
  • hỗ trợ đọc văn bản được tô sáng với định dạng cố định (ví dụ: tệp PDF)

Cài đặt và sử dụng được ghi lại trên trang dự án .

Tôi sẽ rất vui nếu bạn đã thử. Báo cáo lỗi và bất kỳ thông tin phản hồi khác đều được chào đón!


Đây phải là một trong những dự án tuyệt vời nhất tôi từng thấy. Chỉ là wow. 😲

5
Điều này không còn được duy trì.
Goddard

8

Tôi đã xem xét cao và thấp để chuyển văn bản thành giọng nói cho Ubuntu có chất lượng cao. Chẳng có ai. Dây thanh âm của tôi bị tê liệt nên tôi cần TTS để thêm hướng dẫn bằng giọng nói vào video Ubuntu của mình . Bạn có thể chuyển văn bản Linux chất lượng cao thương mại sang phần mềm phát biểu tại đây . Nó thực sự đắt tiền. Cuối cùng tôi đã mua Natural Reader cho Windows (không hoạt động trong Ubuntu dưới Wine) với giá 40 đô la. Có lẽ sau này tôi sẽ lấy Linux.


anh bạn, có và tôi đã sử dụng nó như tuần trước có ít nhất 5 hoặc 6 và tôi không thể tìm thấy bất kỳ ai trong số họ bây giờ, phải yêu cộng đồng của chúng tôi
mchid

Textaloud có hướng dẫn để làm cho sản phẩm của họ hoạt động dưới rượu vang. xem nextup.com/forum/viewtopic.php?t=3349 Tôi tin rằng cepstral cũng có cổng linux. Tôi đã không thể làm cho phần mềm balabolka yêu thích của tôi hoạt động. Tôi có cài đặt windows 10 chủ yếu để xử lý tts. MS David là tốt và tương tự như cepstral david. Cái trước là miễn phí nếu bạn có cửa sổ 10.
Tỳ kheo Subhuti

6

Tôi đã được tiến hành nghiên cứu về văn bản nghe tốt nhất và dễ dàng điều chỉnh giọng nói. Dưới đây là danh sách những gì tôi nghĩ là 5 sản phẩm hàng đầu theo thứ tự chất lượng âm thanh. Hầu hết các trang web được liên kết với các sản phẩm này đều có bản demo tương tác cho phép bạn đưa ra quyết định của riêng mình.

  1. NeoSpeech
  2. iVona
  3. Acapela
  4. Giọng nói tự nhiên của AT & T
  5. Tiếng nói CereProc

1
Có sẵn cho linux? đừng nghĩ vậy
Mehdi Khademloo

5

Tôi thấy giọng nói của Nitech HTS trong lễ hội rất tự nhiên và thoải mái hơn bất kỳ giọng nói nào tôi đã nghe. Xem liên kết này về cách thiết lập Nitech và các âm thanh khác với lễ hội. Tôi đã không tìm thấy một gui tốt mà tôi có thể sử dụng để định cấu hình các giọng nói đó nhưng cài đặt chúng qua festival.scm vẫn hoạt động. Bài đăng đó rất cũ và bạn có thể muốn tìm thư mục cài đặt thực tế bằng cách sử dụng lệnh "định vị lễ hội"


Có vẻ là rất tốt. Tìm thấy các bản demo ở đây cstr.ed.ac.uk/projects/fansion/onlinesemo.html
Iacchus

2
Đúng, giọng nói của Nitech là đầu và vai trên các giọng nói khác của Lễ hội (ngoại trừ giọng nói của CMU, cũng rất hay.) Thật tệ là chúng khó cài đặt. Có một giọng nói CMU tốt có gói mặc định trong Ubunut, nó được gọi là cmu_us_slt_arctic_hts và đi kèm trong gói festivalvox-us-slt-hts. Nó là tốt hơn nhiều so với pico hoặc đặc biệt!
Jon Watte

5

Kết hợp các công cụ SVOX (pico) với LibreOffice:

Các công cụ SVOX (pico) rất dễ cài đặt và mang lại tiếng nói chất lượng tốt trong Ubuntu. Cài đặt nó:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Bạn có thể sử dụng LibreScript kết hợp với các công cụ SVOX (pico) bằng cách cài đặt tiện ích mở rộng "Đọc văn bản" và bạn có được "GUI" cho phần mềm TTS tuyệt vời này:

Thiết lập tùy chọn Đọc văn bản mở rộng với Công cụ - Tiện ích bổ sung - Đọc lựa chọn .... Sử dụng / usr / bin / python làm chương trình bên ngoài. Chọn một tùy chọn dòng lệnh bao gồm mã thông báo (PICO_READ_TEXT_PY) , bạn có thể muốn thử nghiệm một số trong số chúng.

Bây giờ bạn chỉ phải chọn một số văn bản trong LO Writer, Calc, Ấn tượng hoặc Vẽ và bấm vào biểu tượng được thêm dưới dạng thanh công cụ (một khuôn mặt hạnh phúc với một bản ballon).


4

Đây là những gì tôi đã làm để có lời nói tự nhiên thuần túy cho pdf và các tệp văn bản khác (các giải pháp khác không phải là tự nhiên hoặc chúng chỉ là dịch vụ phải trả tiền). Đây thực sự là một công việc xoay quanh việc sử dụng crom hoặc crôm nhưng hoạt động nhanh và dễ dàng.

  1. Cài đặt chương trình Nói! mở rộng trên chrome hoặc crom của bạn.
  2. Cài đặt Trình xem PDF nếu bạn đang sử dụng chromium (chrome đã có trình xem pdf miễn phí) và kiểm tra 'Cho phép ẩn danh' và 'Cho phép truy cập vào các tùy chọn URL tệp trong cài đặt tiện ích mở rộng của crom.
  3. Kéo và thả pdf của bạn vào trình duyệt.
  4. Bây giờ làm nổi bật một số văn bản và nhấp chuột phải và chọn Nói để bạn có thể nghe văn bản tự nhiên thành lời nói.

Cũng có cách để mở các tệp khác như .doc và .txt trong chrome và thực hiện tương tự. Có các tiện ích mở rộng khác cho chrome xem tệp pdf, kiểm tra xem nó có phù hợp với bạn hơn không. Ngoài ra, bạn có thể tải lên tất cả các loại văn bản trong Google Drive và sử dụng chương trình Nói! để đọc nó cho bạn. Một tiện ích mở rộng khác có tên 'Nói văn bản' hoạt động theo cùng một cách và có lời nói tự nhiên.


Bạn có thể nói rõ hơn về cách làm cho TalkIt đọc các tệp pdf được lưu trong Google Drive không?
Marco Lackovic

2

Khi tìm kiếm một công cụ tts tốt hơn để sử dụng với chế độ tường thuật firefox 49 mới, tôi đã tìm thấy pico tts (svox) - công cụ TTS yêu thích của tôi.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Làm thế nào để thay đổi hệ thống tổng hợp giọng nói mặc định rộng?

Mọi người ở arch linux đã đưa tôi đến đúng con đường:

Bỏ ghi chú mô-đun bạn thích và đặt mặc định trong cài đặt bộ xử lý lời:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Khởi động lại daemon:

# sudo systemctl restart speech-dispatcher.service

NHƯNG, khi bắt đầu firefox một lần nữa, không có gì xảy ra. Theo liên kết ở trên (bài đăng trên diễn đàn số 10 và # 16) hoạt động với lễ hội (không thử), nhưng bộ điều phối lời nói cho pico không liệt kê các giọng nói có sẵn. Nó sẽ không chạy.

Bất kỳ ý tưởng nào ngoài đó sẽ được đánh giá cao ;-)


1

Chương trình chuyển văn bản thành giọng nói yêu thích của tôi có tên là Magic English, nhưng giống như Natural Reader được đề cập bởi Joe Steiger, đây là một chương trình Windows và tôi không chắc liệu nó có chạy dưới Wine không.

AT & T Natural Voices có sẵn trực tuyến dưới dạng bản demo, nhưng đó là một cách giải quyết hơn là một giải pháp ...


1

TTS Google ™ đơn giản

Pico, mbrola, cmu, festival, flite, all Sucks năm 2017 (Chúng thật tuyệt vời vào những năm 90). Bài phát biểu tự nhiên của AT & T (rất tuyệt vời) không phải là compat linux và nó không miễn phí, do đó chúng tôi sử dụng Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

Đây là một bản sao của câu trả lời Glutanimate (tác giả của dự án đó). Ngoài ra: "Cập nhật trạng thái: Dự án này hiện không rõ ràng và sẽ duy trì như vậy trong tương lai gần." Ông đề xuất một số lựa chọn thay thế
Pablo A

1

gTTS

gTTS ( Google Text-to-Speech ), thư viện Python và công cụ CLI để giao tiếp với API chuyển văn bản thành giọng nói của Google Dịch. Ghi mp3dữ liệu nói vào một tệp, một đối tượng giống như tệp (bytestring) để thao tác âm thanh thêm hoặc stdout.

Nhược điểm : Chỉ CLI. Cần phải trực tuyến vì nó yêu cầu phải yêu cầu Google điểm cuối mở công khai.

sudo -H pip install gTTS  # Install

Sử dụng

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Tài liệu và nhiều ví dụ

Khác

Một số đã được đề cập


0

Vì vậy, tôi xây dựng Loa thông minh - tiện ích mở rộng cho Google Chrome. Nó có thể đọc các trang ngay cả khi không có lựa chọn (khi việc giữ văn bản là chính xác).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.