用于多句子文本相似度的通用句子编码器

我正在使用通用句子编码器计算 2 个文本之间的相似度

我的问题是在句子级别嵌入文本（产生的向量数等于句子数）然后平均分数而不是仅仅为每个文本创建一个向量是否是正确的方法？

一如既往，这取决于您的数据集。您可以同时尝试两种方法，看看哪一种给出了对您的用例有用的分数。总的来说，我发现一次性输入整个文本以 USE 处理最多 100 个单词的文本效果很好甚至更好。没有必要分成句子然后平均。