Làm thế nào để giảm tiếng ồn để nhận dạng giọng nói khác với giảm tiếng ồn được cho là làm cho lời nói trở nên dễ hiểu hơn đối với con người?

bây giờ đây là một câu hỏi khiến tôi quan tâm, chủ yếu là vì bản thân tôi đang làm việc để giảm tiếng ồn cho một hệ thống nhận dạng giọng nói hiện có.

Hầu hết các bài báo về các kỹ thuật giảm tiếng ồn dường như tập trung vào cách làm cho lời nói trở nên dễ hiểu hơn đối với con người hoặc làm thế nào để cải thiện các thuật ngữ mơ hồ như "chất lượng lời nói".

Tôi chắc chắn rằng, bằng cách sử dụng các tiêu chí như thế này, bạn có thể xác định các bộ lọc giúp tín hiệu tiếng nói dễ nghe hơn đối với con người. Tuy nhiên, tôi không chắc chắn rằng các tiêu chí này có thể được điều chỉnh đơn giản khi cố gắng đánh giá các tín hiệu giọng nói đã được khử nhiễu để cải thiện độ chính xác của hệ thống nhận dạng giọng nói.

Tôi không thực sự tìm thấy những bài báo thảo luận về sự khác biệt này. Độ rõ của giọng nói và chất lượng lời nói có tương quan với độ chính xác của hệ thống nhận dạng giọng nói không? Có biện pháp khách quan nào có thể đánh giá mức độ "tốt" của tín hiệu lời nói bị từ chối đối với hệ thống nhận dạng giọng nói, ví dụ như nếu cũng được phát biểu rõ ràng ban đầu không? Hoặc là cách duy nhất để tìm hiểu kỹ thuật giảm tiếng ồn của bạn tốt như thế nào, để đào tạo hệ thống nhận dạng giọng nói trên dữ liệu bị khử và xem xét độ chính xác?

Tôi rất vui nếu ai đó có thể chỉ cho tôi đi đúng hướng, hoặc có thể đưa ra một số giấy tờ thảo luận về điều này. Cảm ơn trước!

— marlonfl
nguồn

Tôi không thực sự tìm thấy những bài báo thảo luận về sự khác biệt này.

Có toàn bộ sách về chủ đề này:

Mạnh mẽ nhận dạng giọng nói tự động Phiên bản 1

Độ rõ của giọng nói và chất lượng lời nói có tương quan với độ chính xác của hệ thống nhận dạng giọng nói không?

Thông thường không, thông thường giảm nhiễu làm hỏng các tính năng theo cách không thể đoán trước và làm giảm độ chính xác nhận dạng giọng nói.

Có biện pháp khách quan nào có thể đánh giá mức độ "tốt" của tín hiệu lời nói bị từ chối đối với hệ thống nhận dạng giọng nói, ví dụ như nếu cũng được phát biểu rõ ràng ban đầu không? Hoặc là cách duy nhất để tìm hiểu kỹ thuật giảm tiếng ồn của bạn tốt như thế nào, để đào tạo hệ thống nhận dạng giọng nói trên dữ liệu bị khử và xem xét độ chính xác?

Thứ hai. Hơn nữa, giảm nhiễu dựa trên tính năng thực sự loại bỏ hoàn toàn thông tin quan trọng khỏi phổ để bạn không thể sửa chữa độ chính xác của hệ thống sạch. Vì lý do đó, phương pháp hiện đại là thực hiện đào tạo đa phong cách về dữ liệu nhiễu thay vì sử dụng thuật toán giảm nhiễu trước đó. Nó kết thúc trong sự công nhận chính xác hơn.

— Nikolay Shmyrev
nguồn

Cảm ơn câu trả lời của bạn. Tôi đoán tôi đã không tìm đúng giấy tờ. Tôi sẽ xem cuốn sách đó.

— marlonfl

Ok, nếu bạn muốn có giấy tờ, bạn có thể kiểm tra kết quả thử thách CHIME-4, chủ yếu là trạng thái nghệ thuật trong ASR mạnh mẽ.

— Nikolay Shmyrev