微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

自动将文档归档到正确文件夹中的机器学习方法

如何解决自动将文档归档到正确文件夹中的机器学习方法

我想知道是否有人对以下场景的正确方法和合适的算法有任何想法:

有数千个不同的文档,每个文档都有自己的分类编码。这些文件到达系统并需要由用户手动归档到正确的文件夹中。例如

文档代码 文件
ABC123 文件夹 1
DEF456 文件夹 2
GHI789 文件夹 1

虽然我们可以创建文档代码文件夹的映射,但这对于很多也可能会扩展的代码来说可能非常麻烦。此外,每个客户可能希望将相同类型的文档归档到不同的文件夹中。


是否有一种很好的方法来构建一个监督模型,该模型基本上可以使用历史手动归档的权重来了解特定文档倾向于归档在哪个文件夹下,然后决定将来为用户自动归档?

我理解这种权重对于第一次需要手动提交并因此在第一次出现高度偏差的新文档类型来说可能很困难。但可能比为文档内容构建一个会忽略代码本身的分类器更容易​​。

如果有人能指出一些算法,将不胜感激!

解决方法

我使用文档名称为一个模型做出了贡献,该模型已用于超过 100 万份文档。简短的回答是肯定的但是

  1. 我知道这很无聊,但是:除非真的必须,否则不要使用机器学习。如果您没有乐趣,维护生产模型最终会比您预期的工作多得多。此外,只要代码数量很小,比如小于 1000,我就会很想创建映射。即使你想创建一个模型,从长远来看,有一个基于规则的解决方案来进行基准测试这对于获得利益相关者的信任非常宝贵。

  2. 如果你真的去学习这种类型的映射的建模方法,那么一些基本算法应该可以达到,比如决策树,或者它们更复杂的表亲、随机森林分类器和梯度提升机。任何算法、数据科学基础、了解客户的真实需求、全面的 EDA 和合理的实验设计将真正成为您构建的内容最终是否能帮助任何人的关键。

  3. 无论您采用哪种方法,我都建议您保持迭代思维,从简单开始、评估并一点一点地增加复杂性(例如为每个用户定制模型)。就像使用传统软件产品/项目一样。

看看 XGBOOST 分类器,这是一个开始玩的好地方。 https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier

要了解有关设计依赖机器学习的产品的更多信息,我强烈推荐 Emmanuel Ameisen 撰写的“构建机器学习驱动的应用程序:从创意到产品”。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。