如何解决当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
from tpot import tpotClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train,X_test,y_train,y_test = train_test_split(digits.data,digits.target,train_size=0.75,test_size=0.25,random_state=42)
tpot = tpotClassifier(generations=5,population_size=50,verbosity=2,random_state=42)
tpot.fit(X_train,y_train)
print(tpot.score(X_test,y_test))
最后,它对测试集上的数据进行评分,而没有明确进行在训练集上所做的转换。这里有几个问题。
- 当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
- 如果没有,在调用 .score .predict 之前对测试集执行转换的正确方法是什么。
如果我完全误解了这一点,请告知。谢谢。
解决方法
当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
这取决于 TPOT 选择的最终管道。但是,如果 TPOT 选择的最终管道具有任何类型的数据缩放或转换,那么它也会在 predict
和 score
函数中正确应用这些缩放和转换操作。
这样做的原因是,在幕后,TPOT 正在优化 scikit-learn Pipeline objects。
也就是说,如果您希望保证数据发生特定的数据转换,那么您有几个选择:
-
您可以将数据拆分为训练和测试,在训练集上学习转换(例如
StandardScaler
),然后还将其应用于测试集。在将数据传递给 TPOT 之前,您将执行这两项操作。 -
您可以使用 TPOT's template functionality,它允许您指定对分析管道外观的约束。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。