如何解决用于信息检索的布尔值 vs 频率 vs tf-idf
我刚开始接触 IR,想知道使用权重之间是否存在差异。
对于布尔模型,如果文档包含标记,则填充 1,如果单词不包含单词,则填充 0。这很糟糕,因为您无法对文档进行排名。
对于频率模型,不是放置 0/1,而是说明文档包含标记的次数。使用这个模型的缺点是什么?我认为如果一个文档多次包含某个标记,那么当我们计算查询与文档的相似度时,标量会缩放得更高(因此理论上,更长的文档会受到青睐)。
为什么 tf-idf 优于频率模型?差异将除以文档的大小乘以查询的大小。这实现了什么?
这些都是权重……但是这些与计算的实际相似度有什么关系?对于相似性,布尔值/频率/td-idf 权重是否以不同的方式计算?我读过的两个是内积与余弦相似度。为什么余弦优于内积?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。