如何解决我是否需要多个模型进行交叉验证?
所以我看到了不同的交叉验证实现。 我目前正在使用 pytorch 来训练神经网络。 我当前的布局如下所示: 我有 6 个离散数据集。 5 个用于交叉验证。
Network_1 trains on Datasets: 1,2,3,4 computes loss on 5
Network_2 trains on Datasets: 1,5 computes loss on 4
Network_3 trains on Datasets: 1,4,5 computes loss on 3
Network_4 trains on Datasets: 1,5 computes loss on 2
Network_5 trains on Datasets: 2,5 computes loss on 1
然后是第 2 期,我再次完全相同:
Network_1 trains on Datasets: 1,5 computes loss on 1
为了在数据集 6 上进行测试,我应该合并来自所有 5 个网络的预测并取预测的平均分数(仍然需要对预测矩阵进行平均)。
我是否正确理解了交叉验证?这是它应该如何工作?这会正常工作吗? 我努力不使用我已经训练过的数据进行测试。我还是没有
非常感谢您的帮助:)
解决方法
您绝对可以使用神经网络进行交叉验证,但由于神经网络是计算要求高的模型,因此通常不会这样做。为了减少方差,在神经网络中还有其他常用的技术,例如提前停止或退出。
话虽如此,我不确定您是否以正确的方式应用它。您应该跨所有时期进行训练,以便:
Network_1 trains on Datasets: 1,2,3,4 up to the end of training. Then computes loss on 5
Network_2 trains on Datasets: 1,5 up to the end of training. Then computes loss on 4
Network_3 trains on Datasets: 1,4,5 up to the end of training. Then computes loss on 3
Network_4 trains on Datasets: 1,5 up to the end of training. Then computes loss on 2
Network_5 trains on Datasets: 2,5 up to the end of training. Then computes loss on 1
一旦每个网络都训练到训练结束(因此在所有时期内),并在被遗漏的数据集(称为验证数据集)上进行验证,您就可以对获得的分数求平均值。
这个分数(实际上是交叉验证的真正点)应该给你一个公平的模型评估,当你要在测试集上测试它时,它不应该下降(你从一开始就从训练中遗漏的那个) ).
交叉验证通常与某种形式的网格搜索配对使用,以对要比较的不同模型产生无偏的评估形式。因此,例如,如果您想比较在某些参数方面不同的 NetworkA
和 NetworkB
,您可以对 NetworkA
使用交叉验证,对 NetworkB
使用交叉验证,然后采用交叉验证得分最高的那个作为最终模型。
作为最后一步,一旦你决定哪个是最好的模型,你通常会用你在训练集中的所有数据(即你的例子中的数据集 1、2、3、4、5)重新训练你的模型并测试它测试集(数据集 6)上的模型。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。