微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何处理具有不同标签或类的重复文本数据?

如何解决如何处理具有不同标签或类的重复文本数据?

我正在做一个多类文本分类。但是,我有数据在数据集中重复。但是,这些不是重复的,因为它们属于不同的类。数据有效,这两个类彼此接近,重复的文本训练数据不是同一类,而是具有相同共享 URL 的 diff 类。我能做些什么,以便我的文本分类器有效地以更高的概率预测未来的输入,而不与其他对应物共享概率?还有没有其他技巧 注意:只有 10% 的训练数据与 diff 类重复。

解决方法

您要解决的问题不是多类分类,而是multi label classification。有多种方法可以解决多标签分类问题。起点可以在这里:https://scikit-learn.org/stable/modules/multiclass.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。