微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

文本挖掘预处理必须应用于测试还是训练集?

如何解决文本挖掘预处理必须应用于测试还是训练集?

我正在做一些文本挖掘任务,我有一个如此简单的问题,但我仍然无法得出结论。

我正在对我的训练集应用预处理,例如标记化和词干提取,以便我可以训练我的模型。

我是否也应该将此预处理应用于我的测试集?

解决方法

是的,您应该将相同的内容应用于您的测试集。因为您的测试集必须代表您的训练集,这就是为什么它们应该来自相同的分布。让我们凭直觉思考:

您将参加考试。为了备考并获得正常的成绩,讲师应在讲座中询问相同的主题。但是,如果讲师从完全不同的主题提出问题,而没有人见过,则不可能得到正常的结果。

,

当然应该。如果没有,您如何将测试数据输入到您的训练模型中?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。