微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 Python 将音频的非语音部分静音/静音语音活动检测

如何解决使用 Python 将音频的非语音部分静音/静音语音活动检测

我的目的是让 .wav 音频中没有语音的所有部分静音。我目前正在使用 webrtcvad,但我实现的只是从音频中删除非语音部分(使用他们的 example.py 代码https://github.com/wiseman/py-webrtcvad/blob/master/example.py)。如果有人能指出我或告诉我如何实现我的目标,我将不胜感激!这听起来也像是去除背景噪音的问题。

解决方法

假设您希望 WAV 输出与输入具有相同的持续时间,只是将非语音区域替换为静音,而语音区域不变。

这样做的方法是将音频信号与检测器的输出相乘。检测器应输出 1.0 表示通过(语音信号),0.0 表示静音(非语音)。

有时,阻塞部分会使用一个较小的值而不是 0.0,以稍微降低音量,而不会使其成为纯粹的静音。例如 0.01 (-20 dB)。

有时突然的过渡可能有点粗糙。在这种情况下,可以应用一些平滑或淡化。一个简单的替代方法是指数移动平均线。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。