如何解决如何实现符合特定限制的MinHash
对于我的班级,我需要做一个程序来估计两个非常大的文档的Jaccard相似度。该项目的约束条件是将程序视为与包含1000亿个整数的文档进行交互。结果,我不允许实现任何在内存中存储超过1000条数据的数据结构。
对于该作业,我已经生成了两个包含1000000个随机整数的.txt文件。我应该如何整理这些文件,以免超出限制?
(对于我肯定有的误解,我深表歉意,我的教授没有解释MinHashing,我一直在尝试从youtube视频中教自己。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。