Có, điều này là có thể bằng cách coi âm thanh là một chuỗi thành Mạng thần kinh tái phát (RNN) . Bạn có thể huấn luyện RNN dựa vào mục tiêu chính xác ở cuối chuỗi hoặc thậm chí để dự đoán một chuỗi khác bù từ đầu vào.
Tuy nhiên, xin lưu ý rằng có một chút để tìm hiểu về các tùy chọn đi vào xây dựng và đào tạo RNN , rằng bạn sẽ không nghiên cứu trong khi xem xét các mạng chuyển tiếp cấp dữ liệu đơn giản hơn. Các RNN hiện đại sử dụng các thiết kế lớp bao gồm các cổng bộ nhớ - hai kiến trúc phổ biến nhất là LSTM và GRU, và chúng thêm các tham số có thể huấn luyện hơn vào mỗi lớp vì các cổng bộ nhớ cần tìm hiểu các trọng số ngoài các trọng số giữa và trong lớp.
Các RNN được sử dụng rộng rãi để dự đoán từ các chuỗi âm thanh đã được xử lý trong MFCC hoặc các bộ tính năng tương tự, vì chúng có thể xử lý dữ liệu tuần tự như đầu vào và / hoặc đầu ra, và đây là một tính năng mong muốn khi xử lý dữ liệu có độ dài thay đổi như từ được nói , âm nhạc, vv
Một số điều đáng chú ý khác:
RNN có thể hoạt động tốt đối với các chuỗi dữ liệu có độ dài thay đổi và ở đó có thứ nguyên được xác định rõ ràng theo đó các chuỗi phát triển. Nhưng chúng ít được điều chỉnh phù hợp cho các bộ tính năng có kích thước thay đổi khi không có thứ tự hoặc trình tự rõ ràng.
Các RNN có thể nhận được các kết quả tiên tiến để xử lý tín hiệu, NLP và các nhiệm vụ liên quan, nhưng chỉ khi có một lượng dữ liệu đào tạo rất lớn. Khác, đơn giản hơn, các mô hình có thể hoạt động tốt hoặc tốt hơn nếu có ít dữ liệu.
Đối với vấn đề cụ thể về việc tạo MFCC từ các mẫu âm thanh thô: Trong khi có thể tạo RNN dự đoán các tính năng MFCC từ âm thanh thô, điều này có thể mất một số nỗ lực và thử nghiệm để xử lý đúng và có thể mất nhiều sức mạnh xử lý để thực hiện một RNN đủ mạnh để đối phó với các chuỗi rất dài ở tốc độ mẫu âm thanh bình thường. Trong khi tạo MFCC từ âm thanh thô bằng cách sử dụng phương pháp tiêu chuẩn bắt đầu bằng FFT sẽ đơn giản hơn rất nhiều và được đảm bảo chính xác.