为什么在计算可训练参数时考虑上一层的通道数？LeNet-5

如何解决为什么在计算可训练参数时考虑上一层的通道数？LeNet-5

据我了解-CNN网络中可训练的参数不过是在反向传播过程中发生变化的参数。

LeNet-5 Architecture

C3 Feature Sample with its filter and inputs - LeNet-5 Zoomed

让我们以LeNet5体系结构为例。在第二张图中，我们放大了C3 Feature样本及其16个滤镜和S2层，作为这些滤镜的输入。

此特定层的Trainable参数的计算如下：-

* （（（过滤器宽度*过滤器高度*上一层中的过滤器数量+1）当前层中的过滤器数量）

（权重*输入图+偏差）*当前层中的过滤器数量

LeNet的C3层中几乎没有以下情况：-

卷积层3（C3）

C3层与C1相似，不同之处在于存在多个输入图，并且每个（输出）要素图都连接到不同的输入图。这些是大小为10 * 10的16个特征图的排列：

前6个要素图分别连接到3个连续的输入图（重叠2个图）后6个特征图连接到4个连续的输入图（重叠3个图）接下来的3个要素图连接到4个不连续的输入图（重叠1个图）最后1个功能图连接到所有6个输入图因此，

可训练参数=（权重*输入图+偏差）*特征图
第一组=（5 * 5 * 3 +1）* 6 = 456
第二组=（5 * 5 * 4 +1）* 6 = 606
第三组=（5 * 5 * 4 +1）* 3 = 303
第四组=（5 * 5 * 6 +1）* 1 = 151
所有组= 456 + 606 + 303 + 151 = 1516

Source for the above calculation

我的问题：-

正如您在第一组计算中所看到的-我们采用了5X5X3 表示我们正在过滤（H X W）X输入通道数。

我的问题是，为什么要考虑“输入通道数”为可训练的参数？

理想情况下，只有滤波器值在反向传播期间发生变化。因此只有过滤器单元才应视为可训练的。

为什么我们也将这些过滤器的输入图像/通道视为可训练的参数？