Tại sao các mô hình lời nói chính thống không còn yêu cầu một bước đào tạo cá nhân?

Quay trở lại kỷ nguyên Windows XP, khi thiết lập lời nói / chính tả tích hợp sẵn cho hệ điều hành Windows, tôi đã phải nói ra một loạt các mẫu văn bản được lập trình sẵn cho công cụ chuyển văn bản thành giọng nói để cá nhân hóa cấu hình giọng nói của tôi.

Ngày nay, với các công cụ chuyển lời nói thành văn bản được nối mạng như Siri hoặc Cortana, tôi chỉ có thể bắt đầu đọc chính tả.

Chất lượng chuyển đổi văn bản thành giọng nói có vẻ tương đương, mặc dù bộ nhớ của tôi có thể bị lỗi về khía cạnh đó.

Các mô hình bài phát biểu đã vượt qua nhu cầu cá nhân hóa dữ liệu đào tạo chưa? Hoặc, bây giờ họ chỉ thực hiện việc cá nhân hóa dưới vỏ bọc mà không cần một hướng dẫn đào tạo rõ ràng? Hoặc, họ không làm đào tạo, mặc dù nó sẽ vẫn có lợi (ví dụ vì nó bất tiện)?

algorithms machine-learning speech-recognition

— tsutsu
nguồn

Các mô hình bài phát biểu đã vượt qua nhu cầu cá nhân hóa dữ liệu đào tạo chưa?

Có hai khía cạnh cải thiện độ chính xác đáng kể:

Học sâu và mạng lưới thần kinh cải thiện đáng kể độ chính xác.
Lượng dữ liệu đào tạo mà các công ty lớn sử dụng đã tăng lên qua nhiều năm theo thứ tự độ lớn. Các công ty thu thập rất nhiều dữ liệu mà hiệu ứng thích ứng giảm.

Hoặc, bây giờ họ chỉ thực hiện việc cá nhân hóa dưới vỏ bọc mà không cần một hướng dẫn đào tạo rõ ràng?

Có một sự thích ứng nhỏ thường diễn ra, nhưng nó rất có hiệu lực. Về cơ bản, nó phù hợp với giọng nói của bạn với một số giọng nói cơ bản và tạo ra một vectơ tương tự và sau đó vectơ này được sử dụng trong thời gian thực và điều chỉnh đầu vào mạng thần kinh (nên được gọi là thích ứng i-vector). Kiểu thích ứng này khá nhanh, bạn có thể thích nghi từ 2-3 giây nói. Để biết chi tiết kỹ thuật bạn có thể đọc

https://www.microsoft.com/en-us/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf

Hoặc, họ không tập luyện, mặc dù nó vẫn có ích (ví dụ vì nó bất tiện)?

Có một số trường hợp thích ứng sẽ có lợi nhưng một lần nữa có nhiều khía cạnh ở đây:

Nó hoạt động tốt mà không thích ứng.
Nhận dạng mạng thần kinh không phù hợp với thực tế thích ứng. Bạn cần nhiều nút GPU để đào tạo một mạng lưới thần kinh lớn, rất khó để điều chỉnh nó sau đó. Bạn có thể điều chỉnh một lớp nhỏ với dữ liệu thích ứng nhưng hiệu ứng thường nhỏ chỉ vì mạng lưới thần kinh bị ràng buộc khá chặt chẽ và bạn không thể sửa đổi một chút mà không cần đào tạo lại.
Như tôi đã nói ở trên, lượng dữ liệu đào tạo rất lớn đến nỗi dữ liệu tùy chỉnh của bạn có thể đã có trong tập huấn luyện và việc điều chỉnh sẽ không giúp được gì nhiều
Thích ứng cũng có thể gây hại. Hãy tưởng tượng bài phát biểu của bạn có một vết nứt hoặc tiếng bíp bất thường từ nền hoặc thứ gì đó như âm nhạc và hệ thống thích nghi với nó. Sau đó, nó thực sự sẽ giải mã bài phát biểu sạch bình thường của bạn với độ chính xác thấp hơn hệ thống không được kiểm soát.
Thích ứng không thuận tiện cho người dùng. Tại sao bạn cần thích nghi khi bạn có thể bắt đầu sử dụng hệ thống.

Vì vậy, thiết kế hệ thống chuyển sang "nó chỉ hoạt động" và đó là một hướng tốt.

— Nikolay Shmyrev
nguồn