使用 WordNet - 编程之家

如何解决使用 WordNet

我有一个在整个文档集合中使用的独特词（不包括停用词）的词汇表。我想执行查询扩展。在某些方法中，我发现对于查询中的每个单词，它的前 k 个同义词（通常 k=3）都会增加到查询中。但是，我使用的是基于 TFIDF 文档表示的向量空间模型，因此将不在词汇表中的单词添加到查询中最终会被删除。此外，由于它不会使用词义消歧技术，因此添加同义词不能保证所添加的同义词保留查询中使用的词的含义，从而导致查询漂移。因此，我正在考虑创建一个 Sense Similarity Matrix，它将包含查询和所有可能的意义之间的相似性分数，其中词汇中的单词已在整个语料库中使用。相似度得分将基于信息论或基于路径的方法计算。

但是，我无法理解如何找到词汇表中单词的所有含义。另外，我的方法正确吗？有人可以通过指向一些相关资源来指导我吗？

解决方法

如果您要寻找语义相似的单词，我认为您应该查看 word2vec 及其改进的变体，例如 Glove (https://nlp.stanford.edu/projects/glove/) 和 fasttext (https://fasttext.cc/)。它们基本上是单词的向量表示，您可以计算单词之间的相似度以构建完整的相似度矩阵。您还可以查询前 N 个相似词的模型。