微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用于语音分类的CNN预测真假

如何解决用于语音分类的CNN预测真假

所以我试图制作一个语音分类器,挑战是预测说话的人是我还是其他人,我已经构建了一个简单的代码将 .wav 文件转换为数组,所以我所有的音频数据集我说话的文件将被转换成数组,问题是我是一个初学者,我不知道如何只使用一个变量来预测(我的声音),就像说对或错,我怎么能做一个神经网络( CNN) 那样工作吗?

或者我应该使用其他类型的机器学习吗?而不是深度学习? 我想在这个项目中使用深度学习。

解决方法

CNN 也非常适合这一点。您应该使用一维卷积,并设置多个过滤器来处理您的数据。您的卷积将仅在时间维度上移动,而不是 2D 移动窗口。

在这种情况下,使用原始音频信号可能比使用频率值更好。因为您将使用卷积,所以神经网络可以简单地学习如何确定频率(毕竟傅立叶变换就是这样做的)。

Keras 有 Conv1D 层可以做到这一点。

您应该尝试使用移动窗口的步幅和大小来尝试获得最佳结果。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。