微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何从很难找到模式的字符串列表中提取标记

如何解决如何从很难找到模式的字符串列表中提取标记

我正在从简历数据库中构建模型,我想仅从候选人的简历中提取学位的名称。我最初的方法是找到一个模式并使用正则表达式提取匹配项,但是由于没有明显的模式,我的第二种方法是使用nlp并查看是否有任何标签与我想要的字符串匹配。我还考虑了是否制作了API或python库,该库具有所有可能的学位名称,但没有成功。以下是一些字符串:

'bachelor of Computer Science Engineering University : Anna Un'
'master of information Technology University : Deakin Univer'
'diploma in Management 2016 M.Sc. of Computer Science (“Diplo']
'master of Analytics Concentration: Data handling and manage'
'master of Engineering (Software) University of Melbourne 20'
'bachelor of B USInesS INFOR MATIO N SY stem S – Monash Univer'

但是,如果有帮助,我已经提取了前两个单词并将其标准化为硕士,学士学位和文凭,因为它们的格式不同,例如硕士,硕士等。下面是数据快照,以获取一些信息理念。谢谢

enter image description here

解决方法

我已使用Spacy库完成此操作。有两种方法,您可以查看spacy文档:

  1. 基于规则(基于模式)
  2. 针对您的特定用例的自定义NER培训。

您可以选择上述之一。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。