Tại sao các HMM thích hợp để nhận dạng giọng nói khi sự cố dường như không thỏa mãn thuộc tính Markov


7

Tôi đang tìm hiểu về HMM và các ứng dụng của chúng và cố gắng hiểu cách sử dụng của chúng. Kiến thức của tôi hơi khó hiểu, vì vậy xin vui lòng sửa bất kỳ giả định không chính xác nào tôi đang thực hiện. Ví dụ cụ thể mà tôi thắc mắc là sử dụng HMM để phát hiện giọng nói, đây là một ví dụ phổ biến trong văn học.

Phương pháp cơ bản dường như là coi các âm thanh đến (sau khi xử lý) là các quan sát, trong đó các từ thực tế được nói là các trạng thái ẩn của quá trình. Có vẻ như rõ ràng các biến ẩn ở đây không độc lập, nhưng tôi không hiểu làm thế nào chúng thỏa mãn thuộc tính Markov. Tôi sẽ tưởng tượng rằng xác suất của từ thứ N không chỉ phụ thuộc vào từ N-1, mà còn phụ thuộc vào nhiều từ trước đó.

Đây có phải chỉ đơn giản là bỏ qua như một giả định đơn giản hóa vì HMM rất giỏi trong việc mô hình hóa chính xác các vấn đề phát hiện giọng nói, hoặc tôi không hiểu rõ các trạng thái và biến ẩn trong quy trình là gì? Vấn đề tương tự sẽ xuất hiện để áp dụng cho rất nhiều ứng dụng trong đó HMM khá phổ biến, gắn thẻ POS, v.v.


1
trong nhận dạng giọng nói, các HMM thường được sử dụng để mô hình các âm vị trong các mô hình này, chứ không phải các từ và với các âm vị, mô hình HMM về mặt thực nghiệm khá là apropos. có thể sẽ đào được ref (s) nếu câu hỏi nhận được nhiều phiếu hơn
vzn

Câu trả lời:


8

Về chủ đề đó, tôi khuyên bạn nên đọc một bài viết rất hay của James Baker và những người khác thực sự chịu trách nhiệm giới thiệu HMM trong bài phát biểu:

Một quan điểm lịch sử về nhận dạng giọng nói http://cacm.acm.org/mag Magazine / 2014/1/180863- a-history-pers perspective-of-speech-recognition/ abab

Sử dụng các mô hình Markov để thể hiện kiến ​​thức ngôn ngữ đã gây tranh cãi. Các nhà ngôn ngữ học biết rằng không có ngôn ngữ tự nhiên nào có thể được biểu diễn ngay cả bằng ngữ pháp không ngữ cảnh, ít hơn nhiều bởi một ngữ pháp trạng thái hữu hạn. Tương tự, các chuyên gia về trí tuệ nhân tạo đã nghi ngờ nhiều hơn rằng một mô hình đơn giản như quy trình Markov sẽ hữu ích trong việc thể hiện các nguồn kiến ​​thức cấp cao hơn được đề xuất trong báo cáo của Newell. Tuy nhiên, có một sự khác biệt cơ bản giữa giả định rằng chính ngôn ngữ là một quá trình Markov và ngôn ngữ mô hình hóa như là một chức năng xác suất của một quy trình Markov ẩn. Mô hình thứ hai là một phương pháp gần đúng, không đưa ra giả định về ngôn ngữ, mà chỉ cung cấp một đơn thuốc cho nhà thiết kế trong việc chọn những gì sẽ thể hiện trong quy trình ẩn. Thuộc tính dứt khoát của một quá trình Markov là, với trạng thái hiện tại, xác suất của các sự kiện trong tương lai sẽ độc lập với bất kỳ thông tin bổ sung nào về lịch sử quá khứ của quá trình. Thuộc tính này có nghĩa là nếu có bất kỳ thông tin nào về lịch sử quá khứ của quá trình được phục vụ (chẳng hạn như các từ được quan sát và các đơn vị từ phụ), thì người thiết kế nên mã hóa thông tin đó với các trạng thái riêng biệt trong quy trình ẩn. Hóa ra, mỗi cấp độ của hệ thống phân cấp Newell có thể được biểu diễn dưới dạng hàm xác suất của một quá trình Markov ẩn đến mức gần đúng hợp lý. Đối với mô hình hóa ngôn ngữ hiện đại ngày nay, hầu hết các hệ thống vẫn sử dụng các mô hình ngôn ngữ N-gram thống kê và các biến thể, được đào tạo với các kỹ thuật đếm cơ bản hoặc kiểu EM. Những mô hình này đã được chứng minh là mạnh mẽ và kiên cường. Tuy nhiên, N-gram là một mô hình rất đơn giản cho ngôn ngữ thực tế của con người. Theo cách tương tự với học sâu để cải thiện đáng kể chất lượng mô hình âm thanh, các mạng thần kinh tái phát cũng đã cải thiện đáng kể mô hình ngôn ngữ N-gram. Điều đáng chú ý là không có gì vượt qua một khối văn bản lớn phù hợp với miền ứng dụng cho hầu hết các ứng dụng lời nói thực.

Nhìn chung, mô hình Markov là mô hình khá chung để giải mã kênh hộp đen với giả định rất thoải mái khi truyền, do đó nó phù hợp hoàn hảo để nhận dạng giọng nói, tuy nhiên, câu hỏi vẫn là mã hóa như một trạng thái thực sự. Rõ ràng là các trạng thái nên là các đối tượng phức tạp hơn so với những gì chúng ta giả định bây giờ (chỉ một vài từ trước đó). Đó là nghiên cứu liên tục để tiết lộ bản chất thực sự của cấu trúc như vậy.


1
Cảm ơn! Một trong những khả năng đã xảy ra với tôi là thông tin về các trạng thái trước đó theo một cách nào đó có trong trạng thái hiện tại.
Sooniln

3

Mô hình Markov ẩn được sử dụng để mô hình các đơn vị âm vị bằng từ ngữ để nhận dạng giọng nói bắt đầu từ cuối những năm 1980.


Cảm ơn! Tôi đã hoàn toàn bỏ lỡ đoạn đầu tiên của phần trên Wikipedia, điều này sẽ làm cho mọi thứ rõ ràng hơn. Cảm ơn cho những nỗ lực để kết nối các liên kết quá.
Sooniln
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.