Tôi đang cố gắng trích xuất các tính năng từ một tệp âm thanh và phân loại âm thanh thuộc về một loại cụ thể (ví dụ: vỏ chó, động cơ xe, v.v.). Tôi muốn một số rõ ràng về những điều sau đây:
1) Điều này có thể làm được không? Có những chương trình có thể nhận ra lời nói và phân biệt giữa các loại vỏ chó khác nhau. Nhưng có thể có một chương trình có thể nhận được một mẫu âm thanh và chỉ cần nói đó là loại âm thanh gì? (Giả sử có một cơ sở dữ liệu chứa rất nhiều mẫu âm thanh để tham khảo). Các mẫu âm thanh đầu vào có thể hơi ồn (đầu vào micrô).
2) Tôi giả sử rằng bước đầu tiên là trích xuất tính năng âm thanh. Bài viết này đề xuất trích xuất MFCC và đưa chúng vào thuật toán học máy. MFCC có đủ không? Có bất kỳ tính năng khác thường được sử dụng để phân loại âm thanh?
Cảm ơn bạn đã dành thời gian.