微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

当我使用 modin.pandas 时,为什么比使用 Pandas 花费的时间更长 [ray]

如何解决当我使用 modin.pandas 时,为什么比使用 Pandas 花费的时间更长 [ray]

我只是一个 Python 新手,喜欢用 Python 处理数据。

当我能够使用 Python 的代表性数据工具 Pandas 时,它似乎可以很快在 Excel 上工作。

然而,我有点失望地看到检索 470,000 行的数据(.xlsx)需要超过 1 到 2 分钟,结果,我发现使用 modin 和 ray(或 dask)可以实现更快操作。

在简单地学习如何使用它之后,我将其与仅使用 Pandas 进行了比较。 (这次是100M行数据,大约5GB)

import ray
ray.init()
import modin.pandas as md

%%time
TB = md.read_csv('train.csv')
TB

但是写pandas只用了1分3秒,但是写modin[ray]却用了1分9秒。 我很失望地看到它需要更长的时间,而不仅仅是一个小的差异。

如何比 Pandas 更快地使用 modin?复杂的操作,例如 groupby 或 merge?单纯读取数据有什么区别吗?

当其他人使用时,Modin 读取数据的速度更快,我的电脑设置有问题吗?我想知道为什么。

enter image description here

写下提示时安装的方法,以备不时之需。

!pip install modin[ray]
!pip install ray[default]

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。