语音情感识别中的 MFCCMel Frequency 系数的平均值对性能的影响

如何解决语音情感识别中的 MFCCMel Frequency 系数的平均值对性能的影响

我正在从事一个项目（从语音或语音语气中检测情绪），我正在使用 MFCC，我在某种程度上理解它，并且知道它们在语音方面是非常重要的特征。

这是我从 librosa 使用的代码，用于从我的音频文件中提取特征，然后在神经网络中用于训练：

dat,sample_rate = librosa.load(audio_path,res_type='kaiser_fast')
mfccs = np.mean(librosa.feature.mfcc(y=dat,sr=sample_rate,n_mfcc=13).T,axis=0)

我想知道的是，取转置后的梅尔频率系数的平均值如何影响性能？我是否会从我的音频文件中丢失有价值的信息？或者我应该使用整个 Mel 频率系数进行训练并进行一些填充技术以确保训练特征的大小在所有训练音频文件中保持相同，因为它们具有不同的长度。
我还研究了其他技术，例如采用 mfccs 的衍生物并将它们连接在一起，但我仍然不确定哪种技术可以提供更好的特征集并最终提供更好的分类结果。
如果这两种技术不是那么有用，那么也许我应该坚持我目前的方法，如代码所示，即取平均值，并可能将我的梅尔频率系数从 13 增加到更高的数字。

解决方法

我认为在这种情况下求平均值是个坏主意。因为，是的 - 你失去了宝贵的时间信息。但在情绪识别的背景下，通过与背景平均来抑制信号的有价值部分更为重要。众所周知，情绪是一种微妙的现象，可能只在很短的时间内出现，其余时间都隐藏起来。

由于您的动机是准备音频信号以使用 ML 方法进行处理，我应该说有很多方法可以正确执行此操作。简而言之，您独立处理每个 MFCC 帧（例如使用 DNN），然后以某种方式表示整个序列。有关更多详细信息和链接，请参阅此答案：How to classify continuous audio

为了将静态 DNN 包含到动态上下文中，DNN 与隐马尔可夫模型的组合非常流行。描述该方法的经典论文可以追溯到 2013 年：https://www.researchgate.net/publication/261500879_Hybrid_Deep_Neural_Network_-_Hidden_Markov_Model_DNN-HMM_based_speech_emotion_recognition

如今，开发了新颖的方法，例如：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/IS140441.pdf

给定足够的训练数据（和技能），您可以使用某种或循环神经网络，通过设计解决序列分类任务。