文本分类 - 处理不属于任何类别的文本

如何解决文本分类 - 处理不属于任何类别的文本

我正在开发一个文本分类器，并找到了一些可靠的选项。然而，我正在努力解决的一件事是处理不适合任何预定义类别的文本。这肯定会是我们用真实数据看到的东西，所以我需要了解如何处理它。

我注意到当我查看 predict_proba 输出时，（对于朴素贝叶斯/提升）值需要加起来为 1。我认为这是一个问题，因为如果文本不符合任何类别，算法仍然需要输出等于一，它仍然会为该文本分配一些任意标签，即使它确实不应该。

我想出了一些解决方案，如果在 0.90 阈值内，则采用最大概率并分配该类别，但我觉得这可能不是最好的方法。

有人对我可以尝试解决的某些方法有什么建议吗？

谢谢

解决方法

文本有时有多个类别吗？ -> 检查多标签分类

在多标签分类中，文本可以属于零个、一个或多个类别。一个简单的实现是 One-VS-Rest 方法。（想想每个 Category 的分类器，分类 True 或 False，如果所有这些分类器都分类为 False，则样本不属于任何类别。）当预测多个类别时，您也可以选择具有最高置信度的类别，并且您只想要一个。

文本是否只有零个或一个类别？ -> 添加无类别，

对于没有类别的样本，应该预测没有类别类别。当然，您需要为这种方法提供训练样本。

当然，您使用阈值的方法也很有意义，但是很难将此阈值调整到完美的水平，因此我将使用无类别类或多标签方法.