微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

用于信息检索的布尔值 vs 频率 vs tf-idf

如何解决用于信息检索的布尔值 vs 频率 vs tf-idf

我刚开始接触 IR,想知道使用权重之间是否存在差异。

考虑一个二维矩阵,其中行是文档,列是一个标记(词)。

对于布尔模型,如果文档包含标记,则填充 1,如果单词不包含单词,则填充 0。这很糟糕,因为您无法对文档进行排名。

对于频率模型,不是放置 0/1,而是说明文档包含标记次数。使用这个模型的缺点是什么?我认为如果一个文档多次包含某个标记,那么当我们计算查询与文档的相似度时,标量会缩放得更高(因此理论上,更长的文档会受到青睐)。

为什么 tf-idf 优于频率模型?差异将除以文档的大小乘以查询的大小。这实现了什么?

这些都是权重……但是这些与计算的实际相似度有什么关系?对于相似性,布尔值/频率/td-idf 权重是否以不同的方式计算?我读过的两个是内积与余弦相似度。为什么余弦优于内积?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。