如何解决是否有嵌入技术来表示多语言段落?
我有一个包含英语、西班牙语和德语文档的数据集。我想使用文档嵌入技术来表示它们来计算它们的相似性。但是,由于文档是不同语言的,并且每个文档的长度都是段落大小,因此很难找到预训练的模型(我没有足够的数据进行训练)。
我发现了一些有趣的模型,例如 Sent2Vec 和 LASER,它们也适用于多语言上下文。但是,它们都已实现用于句子表示。问题有两个方面:
- 有没有可以用来表示多语言段落的模型?
- 是否可以使用 sent2vec(或 LASER)来表示段落(我的意思是使用嵌入向量表示每个段落)?
任何帮助将不胜感激。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。