微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

文本分类 - 处理不属于任何类别的文本

如何解决文本分类 - 处理不属于任何类别的文本

我正在开发一个文本分类器,并找到了一些可靠的选项。然而,我正在努力解决的一件事是处理不适合任何预定义类别的文本。这肯定会是我们用真实数据看到的东西,所以我需要了解如何处理它。

我注意到当我查看 predict_proba 输出时,(对于朴素贝叶斯/提升)值需要加起来为 1。我认为这是一个问题,因为如果文本不符合任何类别,算法仍然需要输出等于一,它仍然会为该文本分配一些任意标签,即使它确实不应该。

我想出了一些解决方案,如果在 0.90 阈值内,则采用最大概率并分配该类别,但我觉得这可能不是最好的方法

有人对我可以尝试解决的某些方法有什么建议吗?

谢谢

解决方法

  • 文本有时有多个类别吗? -> 检查多标签分类

多标签分类中,文本可以属于零个、一个或多个类别。一个简单的实现是 One-VS-Rest 方法。 (想想每个 Category 的分类器,分类 True 或 False,如果所有这些分类器都分类为 False,则样本不属于任何类别。)当预测多个类别时,您也可以选择具有最高置信度的类别,并且您只想要一个。

  • 文本是否只有零个或一个类别? -> 添加无类别

对于没有类别的样本,应该预测没有类别类别。当然,您需要为这种方法提供训练样本。

当然,您使用 阈值 的方法也很有意义,但是很难将此阈值调整到完美的水平,因此我将使用无类别类或多标签方法.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。