用于参考分类的 NLP

我需要解析几个技术文本文档才能找到引用的每个实例。

使用正则表达式，我轻松地提取了所有提及的引用，因为我们所有的文档都遵循命名标准。

例如：ABC0001、AB-000-001、AB-00001等

我面临的问题是，一个文本通常不会只是引用另一个文档，而是会说它正在被另一个文档引用。

例如，这里有两个可能的句子：

有关详细信息，请参阅 AB-000-001。

或

本文档被 AB-00001 用作参考。

由于这些句子不一定遵循某种模式，我想使用一个简单的文本分类模型来检测一个句子是否引用了另一个文档，或者是引用的主题。

我受到了这个 article 的启发，但我找不到针对我的问题的预先存在的数据集。我必须从头开始训练模型，还是有更简单的方法来完成工作？

谢谢，

利亚姆

PS：我在 Python 中工作

鉴于您非常具体的用例，您很可能必须通过注释您参考的技术文档中的示例来自行准备数据集。

您可以使用 Snorkel 半自动地执行此操作，鉴于您的任务相对简单，这可能是最佳策略。 labelling functions 的权重可以为您提供一个非常好的分类器。

参考文章中使用的方法相当繁重，需要大量您没有的带注释的数据。因此，除非您愿意花费数周时间注释数据，否则我不会尝试使用它。