技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Count-Min Sketch 算法，解决大数据统计难题

时间：2020-10-20分类：大数据作者：编程之家AI导航网

如果老板让你统计一个实时的数据流中元素出现的频率，并且准备随时回答某个元素出现的频率，不需要的精确的计数，那该怎么办？

直觉告诉我们可能需要一个巨大的 HashMap 来统计各个元素的出现频率，但由于不同的元素的个数可能非常大，以至于是个天文数字，要求的内存可能会非常大，从而不切实际。同时，又要求我们实时计算，实时回答，当HashMap的冲突很高时，最坏的情况的时间复杂度可能无法满足实时的要求。

加上前面要求不需要精确的计数，这么说来，必须寻找新的算法。

那么，Count-Min Sketch 就是用来解决此类问题的算法。

这个算法的技巧是：

不存储所有的不同的元素，只存储它们Sketch的计数。

基本的思路是这样的：

创建一个长度为 x 的数组，用来计数，初始化每个元素的计数值为 0；

对于一个新来的元素，哈希到 0 到 x 之间的一个数，比如哈希值为 i，作为数组的位置索引；

这是，数组对应的位置索引 i 的计数值加 1；

那么，这时要查询某个元素出现的频率，只要简单的返回这个元素哈希望后对应的数组的位置索引的计数值即可。

考虑到使用哈希，会有冲突，即不同的元素哈希到同一个数组的位置索引，这样，频率的统计都会偏大。

如何优化？

使用多个数组，和多个哈希函数，来计算一个元素对应的数组的位置索引；

那么，要查询某个元素的频率时，返回这个元素在不同数组中的计数值中的最小值即可。

是不是很美妙？显然，这个改进的算法比原始的算法精确多了，但还是会有冲突，但是冲突少多了。

这个算法的特点是：

只会估算偏大，永远不会偏小；

只需要固定大小的内存和计算时间，和需要统计的元素多少无关；

对于低频的元素，估算值相对的错误可能会很大。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：免费电子书：Using R with Power B 下一篇：CBoard BI 数据可视化支持国产开源

相关推荐

大数据分析案例-基于随机森林模型对北京房价进行预测

自1998年我国取消了福利分房的政策后，房地产市场迅速开展蓬勃起来。同时，随着社会经济的快速开展，居民的经济条件越来越好，住房条件也在不断地提升。而住房是人民根本生活的保障，也是-一个家庭最重要的资产,从一定的层面.上反映了一个家庭整体的生活水王,多方面的因素使得房地产行业在短时间开展成为我国的支柱产业之一;成为了切实关乎人民生活和利益的重要产业。然而，随着房地产行业的开展，问题也慢慢突显出来，房价一直居高不下成为了一个大问题。作为国家的支柱产业,房地产的稳定发展关乎国计民生。近几年，房

作者：艾派森时间：2022-12-20

机器学习实战——房价预测完整案例建议收藏慢慢品

文章目录获取数据查看数据结构获取数据下载数据可以直接通过浏览器下载压缩包，也可以通过函数来进行。import osimport tarfileimport urllib.requestDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"HOUSING_PATH = os.path.join("datasets", "housing") # datasetstestHOUSING_

作者：Dream丶Killer 时间：2022-12-19

网上商城系统MySql数据库设计项目实战

网上商城系统MySql数据库设计

作者：胖哥真不错时间：2022-12-19

常见气象数据获取方式及批量下载代码汇总

26个来源的气象数据获取代码

作者：qazwsxpy 时间：2022-12-19

毕业设计基于大数据的共享单车数据分析与可视化

作者：DanCheng-studio 时间：2022-12-19

大数据分析案例-对电信客户流失分析预警预测

在进入21世纪以来，中国电信业告别了20世纪最后阶段的高速发展状态，转而进入稳步发展阶段。近年来，随着通信的成本逐年下降，电信市场用户覆盖率近乎100%，几乎没有可开发的新市场，移动、联通、电信三大电信企业完全占据了电信服务市场，电信行业的不断进步，使得各大电信运营商自身服务体系不断完善，目前我国的三大运营商均实现了全业务经营，这意味着行业内存在产品、服务、模式等方面的高度同质化，企业间难以实现差异化竞争优势。现如今的竞争环境，迫使运营商的经营重点向有利于电信消费者的方向移动，为了维持客户的保有量，对

作者：艾派森时间：2022-12-19

卡尔曼滤波

目录1.卡尔曼滤波入门2.学卡尔曼滤波的必备知识2.1.状态空间表达式2.2.高斯分布2.3.方差2.4.超参数2.5.卡尔曼直观图解3.卡尔曼滤波3.1.卡尔曼公式理解3.2.调节超参数3.2.1.Q和R的取值3.2.2.P0和X0的取值3.2.3.卡尔曼滤波的使用...

作者：随风张幔时间：2022-12-19

Python大数据-电商产品评论情感数据分析

一、项目背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物，产生了海量的用户行为数据，用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。分析产品：韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机运动无线耳骨传导耳机跑步骑行环法特别版（Aeropex AS800是AfterShokz韶音的网红新品，很多国内外

作者：你隔壁的小王时间：2022-12-19

大数据项目之电商数仓、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试

但有时只有增量数据是不够的，我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前，先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。1）第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据，是bootstrap开始和结束的标志，不包含数据，中间的type为bootstrap-insert的数据才包含数据。2）一次bootstrap输出的所有记录的ts都相同，为bootstrap开始的时间。

作者：Redamancy_06 时间：2022-12-06

[Hive]一篇带你读懂Hive是什么

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！

作者：Philosophy7 时间：2022-12-06

小编推荐

苹果市值2025年有望达4万亿美元