如何解决在 Python 中迭代的最佳对象类型
我目前坚持使用此代码:
already_kNown = set()
for item in collection:
for word in item:
if word not in already_kNown:
already_kNown.add(word)
基本思想是确定一个词在文本集合中是已知的还是新的。为此,我目前遍历一个稳步增加的集合。 随着该集达到高容量(约 20 亿个条目),最终处理变得昂贵。 我的问题是是否有更便宜的方法或对象来迭代?
编辑:
Variable collection: list of lists
Variable item: list
Variable word: string
此代码只是真实代码的快照。我继续执行其他操作,但将通过 already_kNown 集的迭代确定为瓶颈。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。