微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

数据框未显示文件夹路径的正确架构

如何解决数据框未显示文件夹路径的正确架构

我在 S3 存储桶中有一些 Snappy 压缩的 Parquet 文件并使用 Pyspark,我试图读取文件的数据并打印其架构。但是当我从文件夹路径中读取时,架构与单个文件的架构不同。

文件夹路径的架构:

df = spark.read.parquet("s3://bucket_name/rds-aurora/core/")
df.printSchema()
root
 |-- rid: long (nullable = true)
 |-- id: string (nullable = true)
 |-- revision: integer (nullable = true)
 |-- type: integer (nullable = true)
 |-- content_dataType: long (nullable = true)

读取单个文件时的架构:

df = spark.read.parquet("s3://bucket_name/rds-aurora/core/part-00008-c000.snappy.parquet")
df.printSchema()
root
 |-- rid: long (nullable = true)
 |-- id: string (nullable = true)
 |-- revision: integer (nullable = true)
 |-- type: integer (nullable = true)
 |-- content_dataType: long (nullable = true)
 |-- content_deFinitionName: string (nullable = true)
文件夹路径的架构中缺少

content_deFinitionName。任何帮助将不胜感激,以找出为什么/如何获得与单个文件架构相同的文件夹架构。

解决方法

您可能有一些包含不同架构的镶木地板文件。见Parquet schema merging

与 Protocol Buffer、Avro 和 Thrift 一样,Parquet 也支持 schema 进化。用户可以从一个简单的模式开始,逐渐添加 根据需要将更多列添加到架构中。这样,用户可能最终 具有多个不同但相互兼容的 Parquet 文件 模式。 Parquet 数据源现在能够自动检测 这个案例并合并所有这些文件的模式。

[...] 我们从 1.5.0 开始默认关闭它。您可以启用 它由

  1. 在读取 Parquet 文件时将数据源选项 mergeSchema 设置为 true(如下例所示),或
  2. 将全局 SQL 选项 spark.sql.parquet.mergeSchema 设置为 true。

从文件夹路径读取时尝试添加选项 mergeSchema

spark.read.option("mergeSchema","true").parquet("s3://bucket_name/rds-aurora/core/")

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?