微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

估计唯一字符串的数量

如何解决估计唯一字符串的数量

任务是估计(不计数)唯一字符串。这很困难,因为我们有很多字符串,而且没有 8 Mb 的内存。

所以误差不能超过 5%。

首先,我尝试制作布隆过滤器。我选择了 C++。但是字符串包含来自俄语字母表的字母,这使任务变得更加困难。

此外,在此任务中可以将 Python 与 numpy 和 pandas 结合使用,但我不知道如何将其用于此任务。

有人知道怎么用吗?也许是一些统计数据?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。