bây giờ đây là một câu hỏi khiến tôi quan tâm, chủ yếu là vì bản thân tôi đang làm việc để giảm tiếng ồn cho một hệ thống nhận dạng giọng nói hiện có.
Hầu hết các bài báo về các kỹ thuật giảm tiếng ồn dường như tập trung vào cách làm cho lời nói trở nên dễ hiểu hơn đối với con người hoặc làm thế nào để cải thiện các thuật ngữ mơ hồ như "chất lượng lời nói".
Tôi chắc chắn rằng, bằng cách sử dụng các tiêu chí như thế này, bạn có thể xác định các bộ lọc giúp tín hiệu tiếng nói dễ nghe hơn đối với con người. Tuy nhiên, tôi không chắc chắn rằng các tiêu chí này có thể được điều chỉnh đơn giản khi cố gắng đánh giá các tín hiệu giọng nói đã được khử nhiễu để cải thiện độ chính xác của hệ thống nhận dạng giọng nói.
Tôi không thực sự tìm thấy những bài báo thảo luận về sự khác biệt này. Độ rõ của giọng nói và chất lượng lời nói có tương quan với độ chính xác của hệ thống nhận dạng giọng nói không? Có biện pháp khách quan nào có thể đánh giá mức độ "tốt" của tín hiệu lời nói bị từ chối đối với hệ thống nhận dạng giọng nói, ví dụ như nếu cũng được phát biểu rõ ràng ban đầu không? Hoặc là cách duy nhất để tìm hiểu kỹ thuật giảm tiếng ồn của bạn tốt như thế nào, để đào tạo hệ thống nhận dạng giọng nói trên dữ liệu bị khử và xem xét độ chính xác?
Tôi rất vui nếu ai đó có thể chỉ cho tôi đi đúng hướng, hoặc có thể đưa ra một số giấy tờ thảo luận về điều này. Cảm ơn trước!