Tôi trích xuất các đoạn âm thanh từ một tập tin video để nhận dạng giọng nói. Những video này đến từ thiết bị di động / thiết bị thủ công khác và do đó có rất nhiều tiếng ồn. Tôi muốn giảm tiếng ồn xung quanh của âm thanh để lời nói mà tôi chuyển tiếp đến công cụ nhận dạng giọng nói của mình rõ ràng. Tôi đang sử dụng ffmpeg để làm tất cả những thứ này, nhưng bị kẹt ở giai đoạn giảm tiếng ồn.
Cho đến bây giờ tôi đã thử các bộ lọc sau:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Nhưng kết quả rất đáng thất vọng. Lý do của tôi là vì lời nói đến dưới 300-3000 hz, tôi có thể lọc tất cả các tần số khác để triệt tiêu mọi tiếng ồn xung quanh. Tôi đang thiếu gì?
Ngoài ra, tôi đọc về các bộ lọc weiner có thể được sử dụng để cải tiến lời nói và tìm thấy điều này nhưng không chắc chắn cách sử dụng nó.