Làm thế nào để bắt chước / sao chép / giả giọng của ai đó?


19

Có ứng dụng nào hiện có để lấy mẫu giọng nói của ai đó và sử dụng nó để điều chỉnh bất kỳ giọng nói nào khác hoặc tổng hợp một văn bản để giống với giọng nói gốc không?

Ví dụ: Bản thử nghiệm chuyển văn bản thành giọng nói này của AT & T cho phép bạn chọn giọng nói và ngôn ngữ từ các cài đặt trước mà tôi đoán dựa trên một số giọng nói của con người đã được lấy mẫu.

Làm thế nào để bạn gọi quá trình này? Có phải là điều chế giọng nói? Tổng hợp giọng nói?


Tôi đoán nếu bạn đã có đủ các mẫu đào tạo, đối với các từ cụ thể thì có thể thực hiện được
Phorce

Trong cộng đồng nghiên cứu, điều này được gọi là "chuyển đổi giọng nói".
pichenettes

@ user1582478 Tôi có rất nhiều người trong số họ, bạn sẽ tiến hành như thế nào?
clapas

Có thể tạo ra một giọng nói từ một người bạn nói rồi thực hiện cuộc sống đó bằng một cuộc gọi điện thoại giống như một hình thái giọng nói nhưng với giọng nói bạn đã tạo ra?

Điều này không cung cấp một câu trả lời cho câu hỏi. Để phê bình hoặc yêu cầu làm rõ từ một tác giả, hãy để lại nhận xét bên dưới bài đăng của họ - bạn luôn có thể nhận xét về bài đăng của riêng bạn và khi bạn có đủ danh tiếng, bạn sẽ có thể nhận xét về bất kỳ bài đăng nào .
Matt L.

Câu trả lời:


24

Lưu ý đầu tiên: Hầu hết các hệ thống chuyển văn bản thành giọng nói hiện đại, như hệ thống từ AT & T mà bạn đã liên kết đến, sử dụng tổng hợp giọng nói kết hợp . Kỹ thuật này sử dụng một cơ sở dữ liệu lớn các bản ghi âm giọng nói của một người trong bộ sưu tập dài các câu - được chọn sao cho số lượng kết hợp âm vị lớn nhất có mặt. Tổng hợp một câu có thể được thực hiện chỉ bằng cách xâu chuỗi các phân đoạn từ kho văn bản này - bit thách thức đang làm cho chuỗi kết hợp liền mạch và biểu cảm.

Có hai rào cản lớn nếu bạn muốn sử dụng kỹ thuật này để khiến Tổng thống Obama nói những lời đáng xấu hổ:

  • Bạn cần có quyền truy cập vào một tập hợp lớn các câu của giọng nói đích, tốt nhất là được ghi lại với các điều kiện ghi âm thống nhất và chất lượng tốt. AT & T có ngân sách để thu âm hàng chục giờ của cùng một người nói trong cùng một phòng thu, nhưng nếu bạn muốn giả giọng của ai đó chỉ sau 5 phút ghi âm thì sẽ rất khó.
  • Có một số lượng đáng kể sự căn chỉnh thủ công và tiền xử lý trước khi nguyên liệu thô được ghi ở đúng "định dạng" được khai thác bởi một hệ thống tổng hợp giọng nói ghép nối.

Trực giác của bạn rằng đây là một giải pháp khả thi là hợp lệ - miễn là bạn có ngân sách để giải quyết hai vấn đề này.

May mắn thay, có những kỹ thuật khác có thể hoạt động với ít sự giám sát hơn và ít dữ liệu hơn. Lĩnh vực tổng hợp giọng nói quan tâm đến việc "giả mạo" hoặc "bắt chước" một giọng nói từ bản ghi được gọi là chuyển đổi giọng nói . Bạn có bản ghi A1 của người nói mục tiêu A nói câu 1 và bản ghi B2 của người nói nguồn B nói câu 2, bạn nhắm đến việc tạo bản ghi A2 của người nói A nói câu 2, có thể có quyền truy cập vào bản ghi B1 của người nói B đang sao chép với giọng nói của anh ấy / cô ấy giống như người nói mục tiêu.

Các phác thảo của một hệ thống chuyển đổi giọng nói là như sau:

  1. Các tính năng âm thanh được trích xuất từ ​​bản ghi A1 và chúng được nhóm lại thành các lớp âm thanh. Ở giai đoạn này, có một chút giống như có túi sẽ là tất cả "a" của loa A, tất cả "o" của loa A, v.v ... Lưu ý rằng đây là một thao tác đơn giản và thô sơ hơn nhiều so với nhận dạng giọng nói thật - chúng tôi không quan tâm đến nhận biết các từ được tạo thành chính xác - và chúng tôi thậm chí không biết túi nào chứa "o" và túi nào chứa "a" - chúng tôi chỉ biết rằng chúng tôi có nhiều phiên bản của cùng một âm thanh trong mỗi túi.
  2. Quá trình tương tự được áp dụng trên B2.
  3. Các lớp âm thanh từ A1 và B2 được căn chỉnh. Để tiếp tục với sự tương tự của túi, điều này tương đương với việc ghép các túi từ bước 1 và 2, sao cho tất cả âm thanh chúng ta có trong túi này từ loa A phải tương ứng với âm thanh chúng ta có trong túi đó từ loa B. Kết hợp này là dễ dàng hơn nhiều để làm nếu B1 được sử dụng ở bước 2.
  4. Một chức năng ánh xạ được ước tính cho mỗi cặp túi. Vì chúng ta biết rằng túi này chứa âm thanh từ loa A và túi đó có cùng âm thanh nhưng được nói bởi loa B - chúng ta có thể tìm thấy một thao tác (ví dụ: nhân ma trận trên các vectơ đặc trưng) làm cho chúng tương ứng. Nói cách khác, bây giờ chúng ta biết cách làm cho âm "o" của loa 2 giống như "o" của loa 1.
  5. Ở giai đoạn này, chúng tôi có tất cả các thẻ trong tay để thực hiện chuyển đổi giọng nói. Từ mỗi lát của bản ghi B2, chúng tôi sử dụng kết quả của bước 2. để tìm ra loại âm thanh tương ứng. Sau đó, chúng tôi sử dụng chức năng ánh xạ ước tính ở bước 4 để biến đổi lát cắt.

Tôi nhấn mạnh vào thực tế rằng điều này hoạt động ở mức độ thấp hơn nhiều so với việc thực hiện nhận dạng giọng nói trên B2, và sau đó thực hiện TTS bằng giọng nói của A1 như một kho văn bản.

Các kỹ thuật thống kê khác nhau được sử dụng cho bước 1 và 2 - GMM hoặc VQ là những kỹ thuật phổ biến nhất. Các thuật toán căn chỉnh khác nhau được sử dụng cho phần 2 - đây là phần khó nhất và rõ ràng dễ dàng hơn để căn chỉnh A1 so với B1, so với A1 so với B2. Trong trường hợp đơn giản hơn, các phương thức như Dynamic Time Warping có thể được sử dụng để thực hiện căn chỉnh. Đối với bước 4, biến đổi phổ biến nhất là biến đổi tuyến tính (nhân ma trận) trên các vectơ đặc trưng. Các phép biến đổi phức tạp hơn tạo ra các mô phỏng thực tế hơn nhưng vấn đề hồi quy để tìm ánh xạ tối ưu phức tạp hơn để giải quyết. Cuối cùng, như bước 5, chất lượng tái tổng hợp bị giới hạn bởi các tính năng được sử dụng. LPC thường dễ xử lý hơn với phương pháp biến đổi đơn giản (lấy khung tín hiệu -> ước lượng phổ dư và LPC -> nếu cần thay đổi độ cao cần thiết -> áp dụng phổ LPC đã sửa đổi cho phần dư được sửa đổi). Sử dụng một đại diện của lời nói có thể được đảo ngược trở lại miền thời gian và cung cấp sự phân tách tốt giữa giai điệu và âm vị là chìa khóa ở đây! Cuối cùng, miễn là bạn có quyền truy cập vào các bản ghi được căn chỉnh của người nói A và B nói cùng một câu, có các mô hình thống kê giải quyết đồng thời các bước 1, 2, 3 và 4 trong một quy trình ước tính mô hình duy nhất.

Tôi có thể quay lại với một thư mục sau, nhưng một nơi rất tốt để bắt đầu cảm nhận vấn đề và khuôn khổ chung được sử dụng để giải quyết nó là "Hệ thống chuyển đổi giọng nói dựa trên phân loại xác suất và điều hòa" của Stylianou, Moulines và Cappé cộng với mô hình tiếng ồn ".

Theo hiểu biết của tôi, không có phần mềm nào thực hiện chuyển đổi giọng nói - chỉ có các thuộc tính sửa đổi phần mềm của các thông số độ dài của giọng nói và giọng nói (ví dụ: biến áp IRCAM TRAX) - mà bạn phải làm rối với hy vọng tạo ra ghi âm gần với giọng nói đích hơn.


Câu trả lời tuyệt vời! Tôi có lẽ đã không thể hiểu nó nếu không có sự tương tự túi ... Chỉ có một điều mà tôi không hiểu sau lời giải thích rõ ràng này: theo cách hiểu của tôi, bạn luôn có thể có B1! Cảm ơn nhiều.
clapas

Không phải nếu A và B nói một ngôn ngữ khác (có những ứng dụng chuyển đổi giọng nói kỳ lạ trong đó TTS trong ngôn ngữ khác được phát lại bằng giọng nói của chính bạn!). Hoặc nếu A và B đều là những người nổi tiếng, mà bạn không thể tìm thấy một câu phổ biến đủ dài trong tất cả các bản ghi công khai và nếu bạn không nói ngôn ngữ của họ để bạn không thể sử dụng bản ghi giọng nói của mình như một "Cây cầu" giữa hai người.
pichenettes

Tôi hiểu rồi. Cảm ơn một lần nữa @pichenettes. Tôi sẽ cố gắng xem cuốn sách được mô tả từ Stylianou et al. Chúc mừng
clapas

Vui lòng cập nhật câu trả lời của bạn với các liên kết đến các từ viết tắt bạn đã sử dụng. Ví dụ: LPC, VQ, GMM.
aaronsnoswell

Đáp lại nhận xét từ aaronsnoswell: LCP: mã hóa dự đoán tuyến tính, VQ: lượng tử hóa vectơ, mô hình hỗn hợp GMM: Gaussian. Không rõ ràng rằng việc mở rộng các từ viết tắt này giúp ích rất nhiều vì mỗi ý tưởng là một ý tưởng phức tạp, nhưng (đại khái) mỗi ý tưởng liên quan đến mô hình hóa hoặc giải thích dữ liệu pst hoặc tương lai từ một tập hợp các mẫu hiện có.
GregD

2

Bạn có thể sử dụng một cái gì đó như MorphVox . Đây là một cuộc biểu tình. Quá trình này được gọi là biến đổi giọng nói hoặc chuyển đổi. Nếu bạn quan tâm đến các khía cạnh kỹ thuật, một bài viết gần đây bạn có thể nghiên cứu là Chuyển đổi giọng nói bằng cách sử dụng hồi quy bình phương một phần hạt nhân động .


Giọng nói của Dark Dark của người bạn đời, thật buồn cười. Vâng, tôi đã thấy hiệu ứng tương tự trước đây. Cảm ơn bạn
clapas

1

Tôi đang tìm kiếm điều tương tự, nhưng nó không thể được thực hiện. Có một công ty ở Scotland tên là CereProc chuyên thực hiện mô hình giọng nói, nhưng họ cần ai đó ở phòng thí nghiệm ghi âm hàng giờ âm thanh và chi phí để tạo ra một giọng nói là khoảng 30 nghìn USD.


0

Những gì bạn đang tìm kiếm được gọi là một vocoder.

Bạn đã thử dùng vocoder của Audcity chưa? Audacity có thể được tải xuống từ: http://audacity.sourceforge.net/d Download . Có thể tìm thấy bản demo về cách sử dụng tại https://www.youtube.com/watch?v=J_rPEmJfwNs .


1
Vocaloding bao gồm việc áp dụng đường bao phổ của một bản ghi âm (thường là giọng nói) để lọc một âm thanh khác (thường là âm thanh tổng hợp thô, chưa điều chế). Nó không thể được sử dụng để giả giọng nói của ai đó.
pichenettes

Vâng, tôi biết Audacity, nhưng tôi đã không thử bộ phát âm. Tôi nghĩ bạn chỉ có thể áp dụng tiếng ồn trắng cho đường bao của giọng nói được ghi. Cảm ơn bạn
clapas
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.