Gensim Doc2Vec 模型根据数据集返回不同的余弦相似度

如何解决Gensim Doc2Vec 模型根据数据集返回不同的余弦相似度

我用两个数据集训练了两个版本的 doc2vec 模型。

一个数据集包含 2400 个文档,第二个数据集包含 3000 个文档,包括一个数据集中使用的文档。

举个例子

数据集 1 = doc1,doc2,... doc2400

数据集 2 = doc1,... doc2400,doc2401,... doc3000

我认为两个 doc2vec 模型应该在 doc1 和 doc2 之间返回相同的相似度分数,但是,它们返回了不同的分数。

doc2vec 模型的结果是否会在数据集上发生变化,即使它们包含相同的文档?

解决方法

是的,对训练集的任何添加都会改变相对结果。

此外,如 Gensim 常见问题解答中所述,即使使用完全相同的数据进行重新训练通常也会导致每个训练文档的终点坐标不同,尽管每次运行应该大致相同:

https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&-FAQ#q11-ive-trained-my-word2vec--doc2vec--etc-model-repeatedly-using-the-exact-same-text-corpus-but-the-vectors-are-different-each-time-is-there-a-bug-or-have-i-made-a-mistake-2vec-training-non-determinism

运行之间应该保持大致相同的是每个文档周围的邻域。也就是说,添加一些额外的培训文档不应改变某些候选文档与某些目标文档“非常接近”或“比其他文档更接近”的一般结果 - 除非(1)新文档可能包括一些更接近的文档; (2) 根据上面的常见问题解答,两次运行之间存在少量“抖动”。

如果实际上您看到文档的相对邻域和前 N 个邻域发生了很多的变化,无论是在重复运行中还是在以少量额外数据运行时,都可能存在其他问题培训。

特别是,2400 个文档对于 Doc2Vec 来说是一个非常小的数据集 - 较小的数据集可能需要更小的 vector_size 和/或更多的 epochs 和/或其他调整以获得更可靠的结果,即便如此,也可能无法在更大的(数万到数百万个文档)数据集上展示该算法的优势。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?