微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将文档子集分类

如何解决将文档子集分类

我正在尝试找出解决多类分类问题的最佳方法。我想做的是将简短产品使用方法分类为各自的产品。

示例方法

The report builder allow you to build joint reports. 
Click on the new report and select type: 'Joint'

我需要将其分类为产品 Analytics Suite

我大约有10种产品。每个都有20-70个功能及其简短描述(不平衡数据)。我有15000个操作说明文件

我已经提取了每种产品的每个功能描述的术语,所以对于分析套件,我有5个功能及其各自的术语:

功能1

'Report Builder' Terms: ['joint reports','wysiwig','drag-and-drop','download in excel','build reports']

功能2

'Data Loader' Terms: ['ingest data','multiple formats','rest api' ]

我苦苦挣扎的是如何构建自己的功能。我不需要仅在产品功能级别上对操作方法进行分类。因此,如果我在功能级别上进行tf-idf矢量化,我将区分某些术语,因为它们可能出现在所有功能术语中。但是,如果我在产品级别执行功能,则基本上每个产品都有一组种子词。

如何训练分类器以及哪个分类器很明显,但是我很难找到解决方案。简而言之,我需要根据给每个类别的一组种子词来对小文本进行分类。任何指针往哪个方向走?尤其是围绕特征工程,矢量化?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。