微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

资源暂时不可用在 MPI4PY 环境中使用 PyArrow 读取 Parquet 文件的行组时出错

如何解决资源暂时不可用在 MPI4PY 环境中使用 PyArrow 读取 Parquet 文件的行组时出错

我有一个包含 6 个行组的镶木地板文件。我能够使用前 6 个 (Graphics2D) 进程(等级)读取 6 个行组。但是,当进程(排名)#6 及以后尝试再次读取行组时,它会抛出错误

我读取了 0-5 的行组如下:

file_name

idx = convert_rank_to_idx(rank) parquet_file = pq.ParquetFile(file_name) rowgroup = parquet_file.read_row_group(idx) 将排名编号转换为行组索引(即 0 到 5)。例如,rank 6 应再次读取行组 0(已被 rank 0 读取一次)和 rank 7 行组 1(已被 rank 1 读取一次)等等。

这是错误

convert_rank_to_idx(rank)

我想知道是否有人以前遇到过这个问题,或者可能有一些建议或解决方案。 Pyarrow 读取函数内部是否发生了一些阻塞?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。