Tỷ lệ nói mặc định cho chương trình tổng hợp giọng nói là gì?

4

Tôi đã tìm kiếm trên internet, nhưng dường như tôi không thể tìm ra tốc độ nói mặc định cho chương trình tổng hợp giọng nói được xây dựng trên Mac OS.

say "What to say" -r <rate>

Như được hiển thị ở trên, có một cách để xác định tốc độ nói (wpm) nhưng không có nơi nào chỉ định tốc độ mặc định?

Bất cứ ai cũng có một ý tưởng về nó là gì?

mac terminal text-to-speech

— keto23
nguồn

3

Tốc độ nói mặc định thực sự có thể được thay đổi từ Tùy chọn hệ thống:

Thanh trượt có thể được đặt ở một vị trí khác nhau cho các giọng nói khác nhau. Khi tôi cố kéo các thanh trượt cho Alex và Mikko vào giữa, các WPM được hiển thị trong đầu ra bên dưới là 175 và 180.

$ defaults read com.apple.speech.voice.prefs VoiceRateDataArray
(
        (
        1835364215,
        201,
        175
    ),
        (
        1919902066,
        546,
        180
    )
)

Đầu ra của say -r 175 và say không có -r tùy chọn giống hệt nhau đối với Agnes, Alex và Bruce và gần như giống hệt với một số giọng nói khác. Nhưng ví dụ, tốc độ nói mặc định của giọng nói "Bahh" chậm hơn nhiều.

$ say -v ? | sed 's/  .*//' | while read l; do say -v "$l" -r 175 {1..9} -o "$l 1.aif"; say -v "$l" {1..9} -o "$l 2.aif"; done
$ stat -f '%z %N' *
120136 Agnes 1.aif
120136 Agnes 2.aif
131692 Albert 1.aif
180260 Albert 2.aif
122968 Alex 1.aif
122968 Alex 2.aif
231596 Bad News 1.aif
231820 Bad News 2.aif
131692 Bahh 1.aif
180264 Bahh 2.aif
318508 Bells 1.aif
318488 Bells 2.aif
131692 Boing 1.aif
164368 Boing 2.aif
116514 Bruce 1.aif
116514 Bruce 2.aif
131692 Bubbles 1.aif
138860 Bubbles 2.aif
196652 Cellos 1.aif
197088 Cellos 2.aif
131692 Deranged 1.aif
150720 Deranged 2.aif
131692 Fred 1.aif
138860 Fred 2.aif
331052 Good News 1.aif
331492 Good News 2.aif
301932 Hysterical 1.aif
301916 Hysterical 2.aif
131692 Junior 1.aif
144676 Junior 2.aif
131692 Kathy 1.aif
144676 Kathy 2.aif
118196 Kyoko 1.aif
114440 Kyoko 2.aif
420970 Mikko 1.aif
408432 Mikko 2.aif
228012 Pipe Organ 1.aif
228448 Pipe Organ 2.aif
131692 Princess 1.aif
144676 Princess 2.aif
131692 Ralph 1.aif
144676 Ralph 2.aif
128810 Sin-Ji 1.aif
124834 Sin-Ji 2.aif
131692 Trinoids 1.aif
138860 Trinoids 2.aif
119410 Vicki 1.aif
116118 Vicki 2.aif
122742 Victoria 1.aif
119444 Victoria 2.aif
131692 Whisper 1.aif
150724 Whisper 2.aif
131692 Zarvox 1.aif
138860 Zarvox 2.aif

— Lri
nguồn

0

Không phải là cách làm "đẹp", nhưng bạn có thể thực hiện một số mẫu, có thể bắt đầu từ 120 wpm và so sánh chúng với bản ghi kiểm soát tốc độ "mặc định" (rõ ràng, với tất cả các bản ghi sử dụng cùng giọng nói và văn bản). Để chính xác hơn, bạn có thể tải các tệp vào bất kỳ ứng dụng chỉnh sửa âm thanh cơ bản nào và xem dạng sóng để thực sự so sánh tốc độ của bản ghi này và bản ghi khác. Tôi không thể tưởng tượng sẽ mất quá nhiều thời gian để thu hẹp nó. Tôi sẽ tự làm nếu tôi có thời gian ngay bây giờ.

Ngoài ra, bạn có thể nhận được một số mẫu văn bản có độ dài đã biết (nói 100 từ, 200 từ, v.v.), ghi lại giọng nói của tất cả chúng ở cài đặt mặc định, sau đó sử dụng thời lượng để tính wmp trung bình của tất cả các bản ghi. Với đủ mẫu tôi chắc chắn bạn sẽ đến gần.

EDIT: Thực hiện theo quy trình đầu tiên tôi mô tả ở trên, tôi đã tìm thấy tốc độ nói mặc định của Alex (giọng nói mặc định) là chính xác 175 giờ chiều .

Ở tốc độ mặc định và 175 wpm, hai dạng sóng khớp hoàn hảo.

— Tortilla
nguồn

0

720 dường như tối đa cho giọng nói tôi đang sử dụng

— user145705
nguồn