微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

modin pandas read_parquet() 在 ETag KeyError 上失败,尝试从 s3

如何解决modin pandas read_parquet() 在 ETag KeyError 上失败,尝试从 s3

我从 Pandas 创建了一个数据框,并使用 to_parquet(...) 直接写入 s3。

参数是:

df.to_parquet('s3://bucket/fn.parquet',compression='gzip',engine='fastparquet',partition_cols=['col1'])

当我使用 pandas 的 pandas.read_parquet(url) 时,数据框加载良好。

但是当我使用 modin.pandas.read_parquet(url) 时,出现以下错误

 File "/home/mguo/anaconda3/envs/testenv/lib/python3.7/site-packages/s3fs/core.py",line 1779,in __init__
    self.req_kw["IfMatch"] = self.details["ETag"]
KeyError: 'ETag'

以下是我的版本:

python==3.7.3
pandas==1.2.4
modin==0.10.0
s3fs==2021.6.0

解决方法

在 Modin 存储库中创建了一个问题 #3185。请在那里跟踪进度。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。