如何解决将文档子集分类
我正在尝试找出解决多类分类问题的最佳方法。我想做的是将简短产品使用方法分类为各自的产品。
示例方法:
The report builder allow you to build joint reports.
Click on the new report and select type: 'Joint'
我需要将其分类为产品 Analytics Suite 。
我大约有10种产品。每个都有20-70个功能及其简短描述(不平衡数据)。我有15000个操作说明文件。
我已经提取了每种产品的每个功能描述的术语,所以对于分析套件,我有5个功能及其各自的术语:
功能1 :
'Report Builder' Terms: ['joint reports','wysiwig','drag-and-drop','download in excel','build reports']
功能2
'Data Loader' Terms: ['ingest data','multiple formats','rest api' ]
我苦苦挣扎的是如何构建自己的功能。我不需要仅在产品功能级别上对操作方法进行分类。因此,如果我在功能级别上进行tf-idf矢量化,我将区分某些术语,因为它们可能出现在所有功能术语中。但是,如果我在产品级别执行功能,则基本上每个产品都有一组种子词。
如何训练分类器以及哪个分类器很明显,但是我很难找到解决方案。简而言之,我需要根据给每个类别的一组种子词来对小文本进行分类。任何指针往哪个方向走?尤其是围绕特征工程,矢量化?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。