微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python NLP:根据我自己的语料库获取单词的同义词

如何解决Python NLP:根据我自己的语料库获取单词的同义词

我有一个很大的文本语料库(大约 3 GB 的纯文本)。

我想建立一个搜索功能

用户输入关键字时,我想显示其他密切相关的关键字列表。

为此,我不想使用任何通用的同义词词典。相反,我想要一个函数...

  1. 在我的语料库中查看关键字 1 通常与哪些词“搭配”
  2. 找出除了我的关键字 1(可能是关键字 2、关键字 3 等)之外,这些相同的词通常还与哪些其他词相关联

这里有关于方法、库或示例的任何想法吗?我也愿意为更好的方法提供建议。

解决方法

  1. 在您的语料库中训练 word2vec 或 FastText 模型。
  2. 对于每个关键字,在上述模型学习的嵌入空间中找到其最近的邻居。

例如,您可以使用 Gensim 库在 Python 中执行此操作。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。