微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

添加 Word2Vec 嵌入列表是否会提供有意义的表示?

如何解决添加 Word2Vec 嵌入列表是否会提供有意义的表示?

我正在使用预训练的 word2vec 模型 (word2vec-google-news-300) 来获取给定单词列表的嵌入。请注意,这不是我们在对句子进行标记后得到的单词列表,它只是描述给定图像的单词列表。

现在我想获得整个列表的单个向量表示。添加所有单个词嵌入有意义吗?还是我应该考虑平均? 此外,我希望向量具有恒定大小,因此连接嵌入不是一种选择。

如果有人能够解释考虑上述任何一种方法背后的直觉,那将非常有帮助。

解决方法

平均是最典型的,当有人正在寻找一种超级简单的方法将词袋转换为单个固定长度的向量时。

您也可以尝试简单的求和。

但请注意,总和和平均值之间的主要区别在于平均值除以输入向量的数量。因此,它们都导致指向完全相同的“方向”的向量,只是大小不同。而且,最常用的比较这些向量的方法,余弦相似度,是不考虑幅度的。因此,对于稍后比较向量的许多基于余弦相似性的方法,sum-vs-average 将给出相同的结果。

另一方面,如果您以其他方式比较向量,例如通过欧几里得距离,或将它们输入其他分类器,则 sum-vs-average 可能会有所不同。

同样,有些人可能会在用于任何比较之前尝试对所有向量进行单位长度归一化。经过这样的使用前归一化,然后:

  • 欧几里得距离(最小到最大)和余弦相似度(最大到最小)将生成相同的最近邻列表
  • average-vs-sum 将导致不同的结束方向 - 因为单位归一化会提高一些向量的幅度,并降低其他向量的幅度,从而改变它们对平均值的相对贡献。

应该做什么?没有普遍正确的答案 - 根据您的数据集和目标,以及您的下游步骤使用向量的方式,不同的选择可能会在您执行的任何最终质量/合意性评估中提供轻微的优势。因此,通常会尝试一些不同的排列以及不同的其他参数。

单独:

  • GoogleNews 向量在 2013 年左右接受过新闻文章的训练;因此,它们的词义可能不是图像标记任务的最佳选择。如果你有足够的自己的数据,或者可以收集它,训练你自己的词向量可能会产生更好的结果。 (使用特定领域的数据,以及根据您自己的评估调整训练参数的能力,都可以带来好处 - 特别是当您的领域是独一无二的,或者标记不是典型的自然语言句子时。)
  • 还有其他方法可以为令牌运行创建单个摘要向量,而不仅仅是词向量的算术组合。作为 word2vec 算法的一个小变体,通常称为 Doc2Vec(或“段落向量”) - 它也可能值得探索。
  • 还有一些方法可以利用词向量来比较令牌袋,不会将令牌袋折叠为单个固定长度的矢量第一 - 而当它们'计算成本更高,有时比简单的余弦相似性提供更好的成对相似性/距离结果。一种这样的替代比较称为“Word Mover 的距离” - 在某些时候,您可能也想尝试一下。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。