微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

val loss 和 train loss 的区别

如何解决val loss 和 train loss 的区别

我正在对 Cityscapes 数据集进行分割,其中 2616 用于训练,500 用于验证。我使用两个版本的 SGD(无动量和有动量),我使用带有 4 层的 UNet 进行分割任务。对于固定学习率,我观察到强烈的过度拟合,即使应用权重衰减或使模型变小也无济于事。除了调整大小和规范化之外,我不使用任何增强。而且我不想使用 dropout。然后我尝试了 CossinAnnealing 学习率。似乎使用热重启的衰减学习率适用于第一个模型(没有动量),但第二个模型仍然存在过度拟合的问题。您可以在下面看到图表。

model with SGD without momentum

model with SGD with momentum

为了解决第二种方法的过拟合问题,我应用了大小为 1e-4、1e-3、5e-4 的权重衰减。学习曲线如下。在我看来,价值损失仍然是固定的,重量衰减也无济于事。你能告诉我如何用我的设置解决这个问题。

weight decay 1e-4

[

weight decay 5e-4][4]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。