微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何有效地对多标签分类问题的记录进行分类?

如何解决如何有效地对多标签分类问题的记录进行分类?

我有一个分类问题,大约有 11000 条文本记录,其中开始的 3000 条记录被分类标记)为 4 个不平衡的类别,如下所示: {类别 1:343,类别 2:1494,类别 3:1069,类别 4:177}

我对这 3000 条文本记录执行了如下任务:

  1. 对数据进行标记化、去除停用词和词形还原文本,并使用词袋模型从中提取 100 个重复率最高的词。
  2. 使用 spaCy 提取了一些可能有助于分析的其他特征。
  3. 对数据进行标准化,以便所有特征都在同一规模上。
  4. 将数据集拆分为训练集 (75%) 和测试集 (25%)。
  5. 使用了各种算法,例如逻辑回归、SVM、决策树、神经网络等,并比较了它们的分数(准确度、Kappa 分数、F1 分数、精确度、召回率)。在所有这些随机森林中,结果证明在这种特定类型的数据上是最好的。

接下来,我想使用这个先前训练的随机森林分类器对所有其他 8000 条记录进行分类

现在,我应该使用所有 3000 条记录重新训练分类器,然后预测新记录,还是应该使用仅在前 3000 条记录的 75% 上训练的模型直接预测记录?

注意:我还尝试使用 SMOTE 对不平衡的类进行采样。但是,在执行 SMOTE 之后,当我尝试预测新记录的结果时,该模型高度高估了记录,而偏向于实际较少的类,即(类别 1 和类别 4)。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。