如何解决重复交叉验证
我有一个关于 ML 问题中使用的交叉验证的问题。如果我们对数据集应用 5 倍交叉验证,例如 2 次,一次在周一,一次在周五,只是两次不同的时间。星期一特定折叠中存在的元素是否与星期五同一折叠中存在的元素相同?
这是否解释了为什么这个代码:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
iris=load_iris()
X=iris.data
y=iris.target
model=KNeighborsClassifier(n_neighbors=5)
cvs=cross_val_score(model,X,y,cv=5)
print(cvs)
在每次执行时总是给出相同的结果:
[0.96666667 1. 0.93333333 0.96666667 1. ]
解决方法
正如您在 documentation of cross_val_score 中所读到的,它在底层执行 Stratified K-Folds 交叉验证,不会对您的数据 (X,y) 进行混洗。因此,每次计算 cross_val_score
时,您都会在相同的折叠上训练相同的模型并在相同的折叠上进行验证,从而获得相同的结果。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。