Các mô hình bài phát biểu đã vượt qua nhu cầu cá nhân hóa dữ liệu đào tạo chưa?
Có hai khía cạnh cải thiện độ chính xác đáng kể:
- Học sâu và mạng lưới thần kinh cải thiện đáng kể độ chính xác.
- Lượng dữ liệu đào tạo mà các công ty lớn sử dụng đã tăng lên qua nhiều năm theo thứ tự độ lớn. Các công ty thu thập rất nhiều dữ liệu mà hiệu ứng thích ứng giảm.
Hoặc, bây giờ họ chỉ thực hiện việc cá nhân hóa dưới vỏ bọc mà không cần một hướng dẫn đào tạo rõ ràng?
Có một sự thích ứng nhỏ thường diễn ra, nhưng nó rất có hiệu lực. Về cơ bản, nó phù hợp với giọng nói của bạn với một số giọng nói cơ bản và tạo ra một vectơ tương tự và sau đó vectơ này được sử dụng trong thời gian thực và điều chỉnh đầu vào mạng thần kinh (nên được gọi là thích ứng i-vector). Kiểu thích ứng này khá nhanh, bạn có thể thích nghi từ 2-3 giây nói. Để biết chi tiết kỹ thuật bạn có thể đọc
https://www.microsoft.com/en-us/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf
Hoặc, họ không tập luyện, mặc dù nó vẫn có ích (ví dụ vì nó bất tiện)?
Có một số trường hợp thích ứng sẽ có lợi nhưng một lần nữa có nhiều khía cạnh ở đây:
- Nó hoạt động tốt mà không thích ứng.
- Nhận dạng mạng thần kinh không phù hợp với thực tế thích ứng. Bạn cần nhiều nút GPU để đào tạo một mạng lưới thần kinh lớn, rất khó để điều chỉnh nó sau đó. Bạn có thể điều chỉnh một lớp nhỏ với dữ liệu thích ứng nhưng hiệu ứng thường nhỏ chỉ vì mạng lưới thần kinh bị ràng buộc khá chặt chẽ và bạn không thể sửa đổi một chút mà không cần đào tạo lại.
- Như tôi đã nói ở trên, lượng dữ liệu đào tạo rất lớn đến nỗi dữ liệu tùy chỉnh của bạn có thể đã có trong tập huấn luyện và việc điều chỉnh sẽ không giúp được gì nhiều
- Thích ứng cũng có thể gây hại. Hãy tưởng tượng bài phát biểu của bạn có một vết nứt hoặc tiếng bíp bất thường từ nền hoặc thứ gì đó như âm nhạc và hệ thống thích nghi với nó. Sau đó, nó thực sự sẽ giải mã bài phát biểu sạch bình thường của bạn với độ chính xác thấp hơn hệ thống không được kiểm soát.
- Thích ứng không thuận tiện cho người dùng. Tại sao bạn cần thích nghi khi bạn có thể bắt đầu sử dụng hệ thống.
Vì vậy, thiết kế hệ thống chuyển sang "nó chỉ hoạt động" và đó là một hướng tốt.