Tôi đã phát triển một bằng chứng về hệ thống khái niệm để nhận dạng âm thanh bằng cách sử dụng mfcc và các mô hình markov ẩn. Nó cho kết quả đầy hứa hẹn khi tôi kiểm tra hệ thống trên các âm thanh đã biết. Mặc dù hệ thống, khi một âm thanh không xác định được nhập vào sẽ trả về kết quả với trận đấu gần nhất và điểm số không khác biệt để phát minh ra nó là một âm thanh không xác định, ví dụ:
Tôi đã đào tạo 3 mô hình markov ẩn một cho bài phát biểu, một cho nước chảy ra từ vòi nước và một cho gõ trên bàn. Sau đó, tôi kiểm tra chúng trên dữ liệu chưa thấy và nhận được kết quả sau:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Here the input is an unknown sound but it still returns the closest match as there is no system for thresholding/garbage filtering.
Tôi biết rằng trong từ khóa phát hiện ra âm thanh OOV (không có từ vựng) có thể được lọc ra bằng mô hình rác hoặc chất độn nhưng nó nói rằng nó được đào tạo bằng cách sử dụng một tập hợp các từ chưa biết hữu hạn mà từ này không thể áp dụng cho hệ thống của tôi khi tôi không 't biết tất cả các âm thanh mà hệ thống có thể ghi lại.
Làm thế nào là một vấn đề tương tự được giải quyết trong hệ thống nhận dạng giọng nói? Và làm thế nào tôi có thể giải quyết vấn đề của mình để tránh những sai lầm tích cực?