微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

gensim的“ docvecs”是什么?

Doc2Vec Figure 2

上图来自Distributed Representations of Sentences and Documents,介绍doc2vec.我正在使用Gensim的Word2Vec和doc2vec的实现,它们很棒,但是我希望在一些问题上保持清晰.

>对于给定的doc2vec模型dvm,dvm.docvecs是什么?我的印象是它是包含所有词嵌入和段落向量d的平均或连接向量.这是正确的还是d?
>假设dvm.docvecs不是d,那么可以单独访问d吗?怎么样?
>作为奖励,d是如何计算的?该文件只说:

In our Paragraph Vector framework (see figure 2), every
paragraph is mapped to a unique vector, represented by a
column in matrix D and every word is also mapped to a
unique vector, represented by a column in matrix W.

感谢您的指导!

解决方法:

doc2vec模型的docvecs属性保存在训练期间看到的“文档标签”的所有训练向量. (这些在源代码中也称为“ doctags”.)

在最简单的情况下,类似于“段落向量”文件,每个文本示例(段落)都将序列号整数ID作为其“标签”,从0开始.这将是docvecs对象和模型的索引. docvecs.doctag_syn0 numpy数组与“段落向量”文件摘录中的(大写)D本质上是相同的.

(Gensim还支持将字符串标记用作文档标签,每个文档使用多个标签,并在许多培训文档中重复使用标签.对于字符串标签(如果有的话),它们将通过dict模型映射到文档末尾附近的索引.docvecs.doctags.)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐