微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

语音转语音训练

如何解决语音转语音训练

我想训练和使用基于ML的个人语音到文本转换器来处理高度受损的语音,只需要300-400个单词。用于有声音障碍的人。但是不能通用,因为每个人的单词输入都会有独特的语音输入,具体取决于他们的障碍类型。

想知道是否有允许这种训练的ML引擎。如果没有,什么是最好的方法

谢谢

解决方法

我强烈建议您观看YouTube原创剧集《人工智能时代》的第一季第二集。

基本上,谷歌已经为那些无法真正用语音增强普通单词的人们做到了这一点。这很有趣,并谈到了他们如何使用ML技术以及如何使用ML技术。

enter link description here

,

大多数语音识别引擎都支持训练(wav2letter,deepspeech,espnet,kaldi等),您只需要输入数据即可。唯一的问题是您需要大量数据来可靠地训练(每个单词1000个样本)。您可以查看Google Commands数据集,例如有关如何从头开始训练的示例。

由于训练数据集对于您的情况而言将非常小,并且仅包含几个样本,因此您可以从现有的预训练模型开始,然后对样本进行微调以获得最佳准确性。您需要查看“一些短期学习”设置。

您可能可以看一下wav2vec 2.0预训练模型,它对于这种学习应该是有效的。您可以找到用于微调和推断here的示例和命令。

您还可以尝试在Google Commands for NVIDIA NEMO中微调Japser模型。效果可能稍差一些,但仍可以工作,并且应该更容易设置。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。