如何解决使用 Python 将音频的非语音部分静音/静音语音活动检测
我的目的是让 .wav 音频中没有语音的所有部分静音。我目前正在使用 webrtcvad,但我实现的只是从音频中删除非语音部分(使用他们的 example.py 代码:https://github.com/wiseman/py-webrtcvad/blob/master/example.py)。如果有人能指出我或告诉我如何实现我的目标,我将不胜感激!这听起来也像是去除背景噪音的问题。
解决方法
假设您希望 WAV 输出与输入具有相同的持续时间,只是将非语音区域替换为静音,而语音区域不变。
这样做的方法是将音频信号与检测器的输出相乘。检测器应输出 1.0 表示通过(语音信号),0.0 表示静音(非语音)。
有时,阻塞部分会使用一个较小的值而不是 0.0,以稍微降低音量,而不会使其成为纯粹的静音。例如 0.01 (-20 dB)。
有时突然的过渡可能有点粗糙。在这种情况下,可以应用一些平滑或淡化。一个简单的替代方法是指数移动平均线。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。