如何解决用于参考分类的 NLP
我需要解析几个技术文本文档才能找到引用的每个实例。
使用正则表达式,我轻松地提取了所有提及的引用,因为我们所有的文档都遵循命名标准。
例如:ABC0001、AB-000-001、AB-00001等
我面临的问题是,一个文本通常不会只是引用另一个文档,而是会说它正在被另一个文档引用。
例如,这里有两个可能的句子:
有关详细信息,请参阅 AB-000-001。
或
本文档被 AB-00001 用作参考。
由于这些句子不一定遵循某种模式,我想使用一个简单的文本分类模型来检测一个句子是否引用了另一个文档,或者是引用的主题。
我受到了这个 article 的启发,但我找不到针对我的问题的预先存在的数据集。我必须从头开始训练模型,还是有更简单的方法来完成工作?
谢谢,
利亚姆
PS:我在 Python 中工作
解决方法
鉴于您非常具体的用例,您很可能必须通过注释您参考的技术文档中的示例来自行准备数据集。
您可以使用 Snorkel 半自动地执行此操作,鉴于您的任务相对简单,这可能是最佳策略。 labelling functions 的权重可以为您提供一个非常好的分类器。
参考文章中使用的方法相当繁重,需要大量您没有的带注释的数据。因此,除非您愿意花费数周时间注释数据,否则我不会尝试使用它。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。