如何解决带有 Catboost 的“热单编码”分类变量?
我正在尝试预测一个分类目标变量(40 多个类别。)
我创建了几个最可能正确类别的估算器功能。
例如一位预测者认为,爬行动物和两栖动物的概率分别为 25% 和 75%。 第二个预测器认为两栖动物、鱼类 70%、爬行动物 25% 的几率为 15%。
我可以有 N 个概率值(0.0 到 1.0 范围内的浮点值),而不是其中有 N-1 个值为 0 的值和 1 个值为 1 的单热编码。我称之为“one-warm-encoding”,它的主题类似于one-hot-encoding。
然后使用我的两个不同的预测器来执行此操作,这将创建大约 80 个特征 (2x40)。
然而,这似乎会产生很多不必要的功能(这是单热编码的问题),所以我有点不愿意这样做。
我有 50 万个训练集示例,所以也许这不会那么糟糕...
有人有什么想法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。