微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 python 中加速数据挖掘

如何解决在 python 中加速数据挖掘

我是 Python 和数据挖掘方面的完全新手,但我的工作期限很紧,并且被迫为我正在进行的项目提出一些拙劣的解决方案。事实证明,这非常耗时,我认为必须有更好的方法

现在,我从一些 CLI 工具拼凑了一个 Web 抓取工具,这些工具分发资产队列以将其刮成碎片。然后,我将代码上传到 google colab,并让它在 3 台计算机上运行 8 个实例、5 封电子邮件,每个电子邮件都处理自己的资产列表。

我还没有实现指数退避或抖动,“104 错误:连接被对等端终止”似乎是我目前的主要障碍。

运行这台 rube goldberg 机器让我感觉就像在船的内部铲煤。 Colab 实例不断崩溃,需要重新启动,我不知道如何在内核断开连接时保存我的工作,所以我重复了很多工作。

有人可以告诉我有更好的方法吗?一个不需要近乎持续的关注并且需要几个小时来协调的?多个工作人员会遇到相同的速率限制错误吗?有人告诉我 Apache Spark(或者更具体地说是 PySpark)可能是我问题的解决方案。我应该从哪里开始寻找更好的选择?

任何和所有输入都将不胜感激。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。