微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用于多句子文本相似度的通用句子编码器

如何解决用于多句子文本相似度的通用句子编码器

我正在使用通用句子编码器计算 2 个文本之间的相似度

我的问题是在句子级别嵌入文本(产生的向量数等于句子数)然后平均分数而不是仅仅为每个文本创建一个向量是否是正确的方法

解决方法

一如既往,这取决于您的数据集。您可以同时尝试两种方法,看看哪一种给出了对您的用例有用的分数。总的来说,我发现一次性输入整个文本以 USE 处理最多 100 个单词的文本效果很好甚至更好。没有必要分成句子然后平均。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。