Nhận dạng giọng nói không phức tạp như một ví dụ như bạn nghĩ.
Đầu tiên, hãy tưởng tượng tạo ra Chuỗi Markov (MC) nhận dạng văn bản. Chương trình của bạn đọc một loạt các văn bản (hoàn hảo, không có lỗi) và tính toán trạng thái (từ) và thay đổi trạng thái (từ tiếp theo). Âm thanh như bạn đã nhận được điều này xuống. Bây giờ bạn có thể tạo văn bản hoặc đưa ra một số văn bản dự đoán từ tiếp theo bằng cách sử dụng trạng thái và xác suất chuyển tiếp của MC của bạn.
Bây giờ hãy tưởng tượng rằng bạn muốn sử dụng MC của bạn với lời nói. Bạn sẽ chỉ cần mọi người đọc văn bản tương tự như MC của bạn và bạn đã đặt, phải không? Chà ... Ngoại trừ việc họ sẽ phát âm các từ khác nhau: trong đó văn bản viết là "khoai tây", bạn sẽ thực sự nghe thấy "po-TAY-toh" và "po-TAH-toh" và "pu-TAY -to ", v.v. Và ngược lại: văn bản" đã ăn "và" tám "đại diện cho hai trạng thái khác nhau, nhưng (thường) được phát âm giống nhau.
Thuật toán của bạn không còn thấy các trạng thái cơ bản (từ), nó nhìn thấy sự phân phối xác suất của cách phát âm cho mỗi từ. MC gốc của bạn được ẩn đằng sau các cách phát âm, và bây giờ mô hình của bạn cần phải có hai lớp.
Vì vậy, bạn có thể có nhiều người đọc to văn bản mà bạn đã sử dụng cho khóa đào tạo ban đầu của mình, bạn có thể nhận được phân phối cho cách phát âm cho mỗi từ, sau đó kết hợp mô hình ban đầu của bạn với mô hình phát âm và bạn có Mô hình Markov ẩn ( một HMM).
Hầu hết các vấn đề trong thế giới thực sẽ như thế này, vì thế giới thực có xu hướng ồn ào. Bạn sẽ không thực sự biết trạng thái của một cái gì đó. Thay vào đó, bạn sẽ nhận được nhiều chỉ số cho từng trạng thái: đôi khi cùng một chỉ báo cho các trạng thái khác nhau ("đã ăn" và "tám") và đôi khi các chỉ số khác nhau cho cùng một trạng thái ("pu-TAY-toe" và "pah-tah-TOE"). Do đó, HMM phù hợp hơn cho các vấn đề trong thế giới thực.
[Hai ghi chú bên lề: 1) nhận dạng giọng nói thực tế hoạt động ở cấp độ âm vị, không phải cấp độ từ và 2) Tôi tin rằng HMM là vua của đồi để nhận dạng giọng nói, nhưng gần đây đã bị truất ngôi bởi mạng lưới thần kinh sâu.]