使用 Python 将音频的非语音部分静音/静音语音活动检测

如何解决使用 Python 将音频的非语音部分静音/静音语音活动检测

我的目的是让 .wav 音频中没有语音的所有部分静音。我目前正在使用 webrtcvad，但我实现的只是从音频中删除非语音部分（使用他们的 example.py 代码：https://github.com/wiseman/py-webrtcvad/blob/master/example.py）。如果有人能指出我或告诉我如何实现我的目标，我将不胜感激！这听起来也像是去除背景噪音的问题。

解决方法

假设您希望 WAV 输出与输入具有相同的持续时间，只是将非语音区域替换为静音，而语音区域不变。

这样做的方法是将音频信号与检测器的输出相乘。检测器应输出 1.0 表示通过（语音信号），0.0 表示静音（非语音）。

有时，阻塞部分会使用一个较小的值而不是 0.0，以稍微降低音量，而不会使其成为纯粹的静音。例如 0.01 (-20 dB)。

有时突然的过渡可能有点粗糙。在这种情况下，可以应用一些平滑或淡化。一个简单的替代方法是指数移动平均线。