TF模型输出尺寸错误

我正在尝试制作一个能够从录音中提取人类语音的模型。为此，我加载了 1500 个嘈杂的文件（其中一些文件完全相同，但具有不同的语音噪声比（-1、1、3、5、7）。我希望我的模型将 wav 文件作为沿水平轴的一维数组/张量，然后输出一个我可以播放的一维数组/张量。目前这是我的数据设置方式。

这就是我的模型的设置方式

我遇到的一个错误是我无法进行预测，当我得到一个只有一个元素的数组/张量，而不是一个带有 220500 的数组/张量。 22050 背后的原因是它是背景噪音被重叠成干净的语音，所以每个文件都是这个长度。

我一直在处理layers.Input，因为虽然我希望我的模型将每一行都作为一个“对象”/音频剪辑。我不知道这是否是正在发生的事情，因为唯一“成功”的预测是错误

您构建的模型期望数据格式为 (batch_size,1,220500)，就像在输入层中您声明的 input_shape 为 (1,220500) 一样。

对于您正在使用的数据，您应该只使用 (220500,) 的 input_shape。

您可能会遇到的另一个问题是，您在最后一层使用了单个单元。这样模型的输出将是 (batch_size,1)，但您需要 (batch_size,220500) 作为输出。

对于最后一个问题，我建议您使用生成循环神经网络。