微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

以48kHz采样的语音转文本语音训练数据是否仍有助于改善16kHz语音的识别

如何解决以48kHz采样的语音转文本语音训练数据是否仍有助于改善16kHz语音的识别

我们正在根据documentation,使用以.wav(RIFF)格式记录的数据以16位,16kHz的数据训练Azure认知服务自定义语音模型。

但是,我们已经获得了以48kHz记录并编码为MP3的语音数据集。 Speech Studio似乎能够使用此数据毫无问题地训练服务,但我们想知道这样做是否以较高的采样率仅以较高的速率用于识别流式数据,或者这无关紧要?

解决方法

就音频质量而言,具有与您描述的采样率相同的较高采样率是理想的,但通常不会影响语音识别。只要满足音频格式的最低要求,语音识别就可以正常工作。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。