如何解决如何在Redis中存储唯一身份访问
我想知道有多少人访问了每个博客页面。为此,我在Blogs表(MS SQL DB)中有一列来保持总访问量。但我也希望访问尽可能独特。 因此,我将用户的唯一ID和博客ID保留在Redis缓存中,并且每次用户访问页面时,我都会检查她是否曾经访问过该页面,否则,我将增加总访问量。
我的问题是,存储此类数据的最佳方法是什么? 当前,我创建一个类似“ project-visit- {blogId}-{userId}”的密钥,并使用StringSetAsync和StringGetAsync。但是我不知道这种方法是否有效。
有什么想法吗?
解决方法
您的解决方案不是原子的,除非您将get和set操作包装在事务或Lua脚本中。
更好的解决方案是将project-visit-{blogId}-{userId}
保存到Redis集。造访时,请致电SADD
在集合中添加一个项目。仅当用户之前未访问过此页面时,Redis才会向集合中添加新项目。如果要获取总数,只需调用SCARD
即可获取集合的大小。
如果您可以牺牲一些精度,那么HyperLogLog(HLL)概率数据结构是计算唯一访问次数的理想解决方案,因为:
- 它仅使用12K的内存,并且是固定的-它们不会随着唯一访问次数的增加而增加
- 您不需要存储用户数据,这会使您的服务更加注重隐私性
HyperLogLog算法确实很聪明,但是您不需要了解它的内部原理就可以使用它,几年前,Redis将其添加为数据结构。因此,作为用户,您需要知道的是使用HyperLogLogs,您可以在12K的固定内存空间中对唯一元素(访问)进行计数,误差率为0.81%。
比方说,您希望每天记录不重复的访问次数;您每天将必须拥有一个HyperLogLog,其名称类似于cnt:page-name:20200917
,并且每次用户访问页面时,您都将其添加到HLL:
> PFADD cnt:page-name:20200917 {userID}
如果您多次添加同一用户,则他们仍将仅被计数一次。 要获得计数,请运行:
> PFCOUNT cnt:page-name:20200917
您可以通过对不同时间间隔使用不同的HLL(例如,对于2020年9月为cnt:page-name:202009
)来更改唯一用户的粒度。
这个快速的解释器很好地说明了这一点:https://www.youtube.com/watch?v=UAL2dxl1fsE
此博客文章也可能有帮助:https://redislabs.com/redis-best-practices/counting/hyperloglog/
如果您对内部实现感到好奇,Antirez的发行文章非常有用:http://antirez.com/news/75
注意:请注意,使用此解决方案时,您丢失了哪个用户访问了该页面的信息,您只有计数
,无论后端技术(编程语言等)如何,都可以使用Redis流。这是Redis 5中的一项非常新功能,可让您定义在Redis中创建的主题(流)的发布者和订阅者。然后,在每次用户访问中,您都向该流提交新记录(当然是异步的)。您可以在该记录中保留所需的任何信息(用户ip,id等。)。
为每次唯一访问定义一个键根本不是一个好主意,因为:
- 这使得Redis GC的生活更加艰难
- 比较用例的性能无法与Stream相比,特别是如果您将该redis实例用于其他目的
- 不断收集这些独特的访问并进行处理是没有效率的。您必须始终扫描所有按键
结论: 如果要使用Redis,请使用Redis Stream。如果可以更改Redis,请确定使用Kafka(或类似技术)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。