Cách nhận dạng giọng nói được thực hiện với HTK (hoặc bất kỳ công cụ nào khác) tương tự như cách nhận dạng giọng nói được thực hiện trong não. Khi bạn nghe thấy một từ, bạn ngay lập tức chia nó thành các điện thoại cấu thành của nó và sau đó so sánh các điện thoại với một "mô hình" tinh thần bên trong của điện thoại . Những "mô hình" này được xây dựng qua nhiều năm nghe lời nói và cho bạn khả năng phân biệt giữa các câu có âm tương tự như "Cách phá hủy một bãi biển đẹp" và "Cách nhận biết lời nói". Nhận dạng giọng nói với HTK hoặc bất kỳ chương trình dựa trên mô hình nào khác hoạt động theo cách tương tự. Ở đây, trong một vài bước, là cách bạn làm điều đó:
- Bạn lấy tín hiệu giọng nói đầu vào và chuyển đổi nó thành biểu diễn vectơ đặc trưng.
- Lấy một số lượng lớn các câu và thực hiện bước 1 trên mỗi câu.
- Sử dụng các vectơ đặc trưng trong bước 2 để xây dựng mô hình thống kê cho từng điện thoại / từ trong câu (có một số lượng điện thoại / từ hạn chế so với số cách nói vô hạn của chúng - vì vậy bạn giảm bớt những ẩn số bằng cách lập mô hình ).
- Khi có một từ mới, hãy chia nó thành điện thoại và so sánh với từng kiểu máy đã biết. Chuỗi điện thoại có xác suất cao nhất sẽ thắng!
Tất cả các bước trên là rất quan trọng để hoàn thành thành công bất kỳ nhiệm vụ nhận dạng giọng nói. Bằng cách phân tách âm thanh thành vectơ đặc trưng của nó, bạn đang đưa nó vào không gian mô hình, tạo cho nó một biểu diễn làm cho nó phù hợp hơn với việc tạo ra một mô hình ngoài so với các biểu diễn khác (giả sử biểu diễn biên độ thời gian). Hầu hết các đại diện như vậy nằm trong tần số, hoặc miền tần số thời gian. Một trong những đại diện phổ biến nhất như vậy là MFCC (Hệ số cepstral tần số Mel). Theo một cách nào đó, kỹ thuật này bắt chước phản ứng thính giác của con người với một bộ các bộ lọc. Một tín hiệu đầu vào được phân tách với bộ bộ lọc này có khoảng cách logarit của tần số trung tâm của chúng. Các hệ số MFCC của bất kỳ một câu (nói) nào sau đó được sử dụng để mô hình hóa từng điện thoại mà câu được tạo ra. Ví dụ, xem xét,
Câu: HI. Mô tả ngữ âm: hh aa ey
Khi bạn đưa các hệ số MFCC vào HTK, nó sẽ liên kết các hệ số MFCC của một phần của câu với hh, một phần khác với aa, v.v. Khi điều này được lặp đi lặp lại nhiều lần, các mô hình cho điện thoại bắt đầu hình thành.
HTK sử dụng công cụ HCopy
để chuyển đổi một câu đầu vào thành biểu diễn vectơ đặc trưng của nó. Cũng có nhiều "hương vị" cho MFCC (đại diện E_D_A hoặc E_D_A_Z). Nó sẽ là một ý tưởng tốt để đọc tài liệu cho HCopy
trong htkbook.
Các hệ số MFCC được ghi vào một tệp có phần mở rộng .mfc
bằng HTK. Không thể đọc tệp đó bằng bất kỳ trình soạn thảo văn bản nào vì (tôi nghĩ) các hệ số được viết dưới dạng nhị phân. Bạn có thể cố gắng đọc các tập tin với C
mặc dù.
HTH.