如何解决资源暂时不可用在 MPI4PY 环境中使用 PyArrow 读取 Parquet 文件的行组时出错
我有一个包含 6 个行组的镶木地板文件。我能够使用前 6 个 (Graphics2D
) 进程(等级)读取 6 个行组。但是,当进程(排名)#6 及以后尝试再次读取行组时,它会抛出错误。
我读取了 0-5
的行组如下:
file_name
idx = convert_rank_to_idx(rank)
parquet_file = pq.ParquetFile(file_name)
rowgroup = parquet_file.read_row_group(idx)
将排名编号转换为行组索引(即 0 到 5)。例如,rank 6 应再次读取行组 0(已被 rank 0 读取一次)和 rank 7 行组 1(已被 rank 1 读取一次)等等。
这是错误:
convert_rank_to_idx(rank)
我想知道是否有人以前遇到过这个问题,或者可能有一些建议或解决方案。 Pyarrow 读取函数内部是否发生了一些阻塞?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。