如何解决如何从HDFS读取pyspark中的文件
我使用 sqoop 将数据从 MysqL 摄取到 hdfs。
我想在 pyspark 中读取此文件。如何读取 part_m_0000 以及如何在 hdfs 中找到文件路径。
解决方法
如果可能,Spark 可以(并且应该)读取整个目录
如何在hdfs中找到文件路径。
路径是 /user/root/etl_project
,如您所示,我确定也在您的 Sqoop 命令中
如何读取 part_m_0000
这最终取决于您告诉 Sqoop 写入的输出格式。你应该更喜欢写入 Parquet 文件,Spark 有一个本地读取器。
spark.read.parquet("/user/root/etl_project")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。