微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 Pandas 的下游作业中通过 Athena 读取分区数据

如何解决在 Pandas 的下游作业中通过 Athena 读取分区数据

我的数据管道中有 2 个阶段,第一阶段从源读取数据并转储到中间存储桶,下一阶段从该中间存储桶读取数据。我在中间阶段进行了 athena 设置,我们计划从 athena 读取此分区数据而不是读取文件(使用 Athena 的原因:我们可能有需要根据单次读取中的某些条件从不同分区读取的场景) .

我们是否应该继续使用这种方法,因为我们知道 Athena 在将数据读入 Pandas 数据帧时有一些限制,比如我们一次只能有 1000 条记录。

是否有针对此用例的更好解决方案。我们正在使用 Pandas。

解决方法

我们决定将 awsdatawrangler 用于我们的目的,因为它更可靠并且与我们正在努力实现的目的相同。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。