使用 MFCC 和 DTW 进行语音识别另见

如何解决使用 MFCC 和 DTW 进行语音识别另见

所以，基本上我有大量基于单词的数据集的数据。每个数据的时间长度绝对不同。

这是我的方法：

标记给定的数据集
使用分层 KFold 对训练数据 (80%) 和测试数据 (20%) 进行拆分
使用 MFCC 提取幅度、频率和时间
由于 MFCC 提取的每个数据的时间序列不同，我想使用 DTW 使所有数据的时间维度长度完全相同。
然后我将使用 DTW 数据通过神经网络对其进行训练。

我的问题是：

我的方法，尤其是第 4 步的方法是否正确？
如果我的方法是正确的，我如何将每个音频转换为与 DTW 相同的长度？因为基本上我只能比较 MFCC 数据的两个音频，而当我尝试更改为其他音频数据时，长度的结果将完全不同。

解决方法

广告 1) 标签

我不确定您所说的“标记”数据集是什么意思。如今，ASR 所需要的只是一段话语和相应的文本（例如搜索 CommonVoice 以获取一些数据）。这取决于您使用的模型，但神经网络不需要为此任务进行任何分割或额外标记等。

广告 2) KFold 交叉验证

进行交叉验证从来没有坏处。如果您有时间和资源来测试您的模型，请继续使用交叉验证。就我而言，我只是让测试集足够大，以确保我得到一个有代表性的字错误率 (WER)。但这主要是因为训练模型 k 次非常费力，因为 ASR 模型通常需要一些时间来训练。有诸如 Librispeech（和其他）之类的数据集，它们已经为您提供了训练/测试/开发拆分。如果需要，您可以将您的成绩与学术成绩进行比较。但是，如果他们使用了您无法匹配的大量计算能力（和数据），这可能会很困难，因此在比较结果时请记住这一点。

广告 3) MFCC 功能

MFCC 工作正常，但根据我的经验以及我通过阅读文献等发现的内容，使用 log-Mel-spectrogram 使用神经网络的性能稍好一些。测试它们的工作量并不大，因此您可能也想尝试 log-Mel。

相同长度的广告 4) 和 5) DTW

如果您使用神经网络，例如CTC 模型或 Transducer，甚至是 Transformer，您都不需要这样做。音频输入不需要具有相同的长度。请记住一件事：如果您训练模型，请确保您的批次不包含太多填充。您想使用诸如 bucket_by_sequence_length() 之类的分桶。

只需将批量大小定义为“频谱图帧数”，然后使用分桶来真正利用您可用的内存。这确实可以对模型的质量产生巨大的影响。我是通过艰难的方式了解到这一点的。

注意

您没有指定您的用例，所以我只提到以下几点：您需要知道您想用您的模型做什么。如果模型应该能够使用音频流 s.t.一个用户可以说任意长，你需要从一开始就知道并朝着这个方向努力。

另一种方法是：“我只需要转录短音频片段。”例如10到60秒左右。在这种情况下，您可以简单地训练任何 Transformer，由于其注意力机制，您将获得相当不错的结果。如果这就是你所需要的，我建议走那条路，因为这相当容易。但是，如果您需要更长时间地流式传输音频内容，请远离这种情况。

在流式传输方面，事情变得很多更加复杂。任何纯粹的基于编码器-解码器注意力的模型都需要付出很多努力才能完成这项工作。您可以使用 RNN（例如 RNN-T），但这些模型可能变得非常庞大和缓慢，并且需要额外的努力才能使它们可靠（例如语言模型、波束搜索），因为它们缺乏编码器-解码器的注意力。还有其他一些将 Transformer 与 Transducers 结合的风格，但如果您想独自编写所有这些，那么您将承担相当大的任务。

另见

已经有很多代码可供您学习：

TensorFlowASR（张量流）
ESPnet (PyTorch)

第

使用 MFCC 和 DTW 进行语音识别 另见

如何解决使用 MFCC 和 DTW 进行语音识别 另见

解决方法

注意

另见

相关推荐

使用 MFCC 和 DTW 进行语音识别另见

如何解决使用 MFCC 和 DTW 进行语音识别另见