Tôi đang cố gắng so sánh 2 mẫu bài phát biểu và đánh giá chúng về sự tương đồng. Hãy nghĩ về ai đó đang cố gắng lặp lại một cụm từ, và sau đó so sánh 2 tệp âm thanh đó.
Tôi đã bắt đầu bằng cách thực hiện thuật toán MFCC (http://en.wikipedia.org/wiki/Mel-frequency_805strum). Tôi tính toán các MFCC của cả hai mẫu âm thanh, cung cấp cho tôi khoảng 500 khung âm thanh (mỗi khung hình 10ms, giống như 30% so với trước đó) có hệ số MFCC khoảng 14 hoặc hơn. Vì vậy, một ma trận 500x14 cho mỗi tín hiệu âm thanh.
Sau đó, tôi làm cách tiếp cận ngây thơ chỉ đơn giản là phân biệt các ma trận. Điều này không cho kết quả rất hứa hẹn. Một nửa thời gian khi tôi so sánh các mẫu âm thanh hoàn toàn khác nhau (nơi nói các cụm từ khác nhau), tôi nhận được ít sự khác biệt hơn so với việc so sánh âm thanh nơi tôi cố gắng lặp lại cùng một cụm từ! Điều này rõ ràng là ngược và không thể cho tôi một thuật toán chấm điểm tốt.
Làm thế nào tôi có thể cải thiện về điều này? Tôi nghĩ MFCC là một phần thực sự quan trọng trong xử lý lời nói, mặc dù rõ ràng tôi cần phải làm nhiều hơn với nó.