微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

TF模型输出尺寸错误

如何解决TF模型输出尺寸错误

我正在尝试制作一个能够从录音中提取人类语音的模型。为此,我加载了 1500 个嘈杂的文件(其中一些文件完全相同,但具有不同的语音噪声比(-1、1、3、5、7)。我希望我的模型将 wav 文件作为沿水平轴的一维数组/张量,然后输出一个我可以播放的一维数组/张量。 目前这是我的数据设置方式。

enter image description here

这就是我的模型的设置方式

enter image description here

我遇到的一个错误是我无法进行预测,当我得到一个只有一个元素的数组/张量,而不是一个带有 220500 的数组/张量。 22050 背后的原因是它是背景噪音被重叠成干净的语音,所以每个文件都是这个长度。

enter image description here

我一直在处理layers.Input,因为虽然我希望我的模型将每一行都作为一个“对象”/音频剪辑。我不知道这是否是正在发生的事情,因为唯一“成功”的预测是错误

解决方法

您构建的模型期望数据格式为 (batch_size,1,220500),就像在输入层中您声明的 input_shape 为 (1,220500) 一样。

对于您正在使用的数据,您应该只使用 (220500,) 的 input_shape。

您可能会遇到的另一个问题是,您在最后一层使用了单个单元。这样模型的输出将是 (batch_size,1),但您需要 (batch_size,220500) 作为输出。

对于最后一个问题,我建议您使用生成循环神经网络。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。