微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

需要解释pyarrow.parquet中read_table方法的内部工作

如何解决需要解释pyarrow.parquet中read_table方法的内部工作

我将所有必需的实木复合地板表存储在Hadoop Filesystem中,所有这些文件都有唯一的标识路径。这些路径作为JSON推送到RabbitMQ队列中,并由使用者(在CherryPy中)使用以进行处理。成功使用后,将发送第一个路径以进行读取,并且完成前面的读取过程后,将读取随后的路径。现在要读取特定的表,我正在使用以下代码行,

data_table = parquet.read_table(path_to_the_file)

假设我在邮件中有五个阅读任务。正在执行第一个读取过程并成功读取,现在在还没有执行其他读取任务之前,我只是手动停止了服务器。此停止不会将消息执行成功确认发送到队列,因为还有四个剩余的读取进程。重新启动服务器后,整个消耗和读取过程将从初始阶段开始。现在,当在第一个路径上调用read_table方法时,它会完全卡住。

深入研究read_table方法的工作流程,我发现它实际上卡在了哪里。 但是需要进一步解释这种在hadoop文件系统中读取文件方法

path = 'hdfs://173.21.3.116:9000/tempDir/test_dataset.parquet' 
data_table = parquet.read_table(path)

有人可以给我一张调用方法后发生的内部实现的图片吗?这样我就可以找到问题的实际发生原因和解决方案。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?