语音转语音训练 - 编程之家

我想训练和使用基于ML的个人语音到文本转换器来处理高度受损的语音，只需要300-400个单词。用于有声音障碍的人。但是不能通用，因为每个人的单词输入都会有独特的语音输入，具体取决于他们的障碍类型。

想知道是否有允许这种训练的ML引擎。如果没有，什么是最好的方法。

谢谢

我强烈建议您观看YouTube原创剧集《人工智能时代》的第一季第二集。

基本上，谷歌已经为那些无法真正用语音增强普通单词的人们做到了这一点。这很有趣，并谈到了他们如何使用ML技术以及如何使用ML技术。

大多数语音识别引擎都支持训练（wav2letter，deepspeech，espnet，kaldi等），您只需要输入数据即可。唯一的问题是您需要大量数据来可靠地训练（每个单词1000个样本）。您可以查看Google Commands数据集，例如有关如何从头开始训练的示例。

由于训练数据集对于您的情况而言将非常小，并且仅包含几个样本，因此您可以从现有的预训练模型开始，然后对样本进行微调以获得最佳准确性。您需要查看“一些短期学习”设置。

您可能可以看一下wav2vec 2.0预训练模型，它对于这种学习应该是有效的。您可以找到用于微调和推断here的示例和命令。

您还可以尝试在Google Commands for NVIDIA NEMO中微调Japser模型。效果可能稍差一些，但仍可以工作，并且应该更容易设置。