将BCE损失用于图像的变分自动编码器的背后是什么？

我只是实现变分自动编码器，想知道将BCE损失用于RGB图像的背后是什么。

据我了解，对于MNIST数据集，标准VAE正在为所有像素重建伯努利分布参数。从该模型得出的重建误差为

p（x）=Πx_i^{y _i}（1-x _i）^{（ 1-y _i）}

采用负对数形式，可以通过以下方式得出BCE；

BCE（x）= -logp（x）=Σ（-y _i logx _i-（1-y _i）log （1-x _i））

其中x是整个输入向量，x _i是其像素，其中i在[0，width * height）。

我想知道如何将其应用于彩色图像。由于单色0/1值图像后面的概率模型是每个像素的伯努利分布，因此该模型无法应用于值为0到255的彩色图像。通过将图像重新缩放为连续的0到1值将不会没有帮助。使用BCE损失背后的数学原理是什么？

我看到this说

...当y = p时，即当真实标签等于预测标签时，二进制交叉熵具有最小值，这正是我们要寻找的。 p>

但是对于这种情况背后的概率模型仍然感到困惑。而且，有些代码是using BCE，有些代码是using MSE，无法理解使用这些损失的原因。

谢谢！