数据框未显示文件夹路径的正确架构

如何解决数据框未显示文件夹路径的正确架构

我在 S3 存储桶中有一些 Snappy 压缩的 Parquet 文件并使用 Pyspark，我试图读取文件的数据并打印其架构。但是当我从文件夹路径中读取时，架构与单个文件的架构不同。

文件夹路径的架构：

df = spark.read.parquet("s3://bucket_name/rds-aurora/core/")
df.printSchema()

root
 |-- rid: long (nullable = true)
 |-- id: string (nullable = true)
 |-- revision: integer (nullable = true)
 |-- type: integer (nullable = true)
 |-- content_dataType: long (nullable = true)

读取单个文件时的架构：

df = spark.read.parquet("s3://bucket_name/rds-aurora/core/part-00008-c000.snappy.parquet")
df.printSchema()

root
 |-- rid: long (nullable = true)
 |-- id: string (nullable = true)
 |-- revision: integer (nullable = true)
 |-- type: integer (nullable = true)
 |-- content_dataType: long (nullable = true)
 |-- content_deFinitionName: string (nullable = true)

文件夹路径的架构中缺少

列content_deFinitionName。任何帮助将不胜感激，以找出为什么/如何获得与单个文件架构相同的文件夹架构。

解决方法

您可能有一些包含不同架构的镶木地板文件。见Parquet schema merging：

与 Protocol Buffer、Avro 和 Thrift 一样，Parquet 也支持 schema 进化。用户可以从一个简单的模式开始，逐渐添加根据需要将更多列添加到架构中。这样，用户可能最终具有多个不同但相互兼容的 Parquet 文件模式。 Parquet 数据源现在能够自动检测这个案例并合并所有这些文件的模式。

[...] 我们从 1.5.0 开始默认关闭它。您可以启用它由

在读取 Parquet 文件时将数据源选项 mergeSchema 设置为 true（如下例所示），或
将全局 SQL 选项 spark.sql.parquet.mergeSchema 设置为 true。

从文件夹路径读取时尝试添加选项 mergeSchema：

spark.read.option("mergeSchema","true").parquet("s3://bucket_name/rds-aurora/core/")

数据框未显示文件夹路径的正确架构

如何解决数据框未显示文件夹路径的正确架构

解决方法

相关推荐