я извлекаю аудио клипы из видеофайла для распознавания речи. Эти видео приходят с мобильных / других устройств ручной работы и, следовательно, содержат много шума. Я хочу, чтобы уменьшить фоновый шум звука, так что речь, которую я передаю на мой двигатель распознавания речи ясно. Я использую ffmpeg, чтобы сделать все это, но застрял на этапе шумоподавления.
до сих пор я пробовал следующие фильтры:
ffmpeg-20140324-git-63dbba6-win64-staticbin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
но результаты очень неутешительные. Мои рассуждения в том, что, поскольку речь идет в диапазоне 300-3000 Гц я могу отфильтровать все другие частоты для подавления фонового шума. Что мне здесь не хватает?
кроме того, я читал о фильтрах weiner, которые могут быть использованы для улучшения речи и найдены этой но я не уверен, как использовать его.