如何解决数据框未显示文件夹路径的正确架构
我在 S3 存储桶中有一些 Snappy 压缩的 Parquet 文件并使用 Pyspark,我试图读取文件的数据并打印其架构。但是当我从文件夹路径中读取时,架构与单个文件的架构不同。
文件夹路径的架构:
df = spark.read.parquet("s3://bucket_name/rds-aurora/core/")
df.printSchema()
root
|-- rid: long (nullable = true)
|-- id: string (nullable = true)
|-- revision: integer (nullable = true)
|-- type: integer (nullable = true)
|-- content_dataType: long (nullable = true)
读取单个文件时的架构:
df = spark.read.parquet("s3://bucket_name/rds-aurora/core/part-00008-c000.snappy.parquet")
df.printSchema()
root
|-- rid: long (nullable = true)
|-- id: string (nullable = true)
|-- revision: integer (nullable = true)
|-- type: integer (nullable = true)
|-- content_dataType: long (nullable = true)
|-- content_deFinitionName: string (nullable = true)
文件夹路径的架构中缺少列content_deFinitionName。任何帮助将不胜感激,以找出为什么/如何获得与单个文件架构相同的文件夹架构。
解决方法
您可能有一些包含不同架构的镶木地板文件。见Parquet schema merging:
与 Protocol Buffer、Avro 和 Thrift 一样,Parquet 也支持 schema 进化。用户可以从一个简单的模式开始,逐渐添加 根据需要将更多列添加到架构中。这样,用户可能最终 具有多个不同但相互兼容的 Parquet 文件 模式。 Parquet 数据源现在能够自动检测 这个案例并合并所有这些文件的模式。
[...] 我们从 1.5.0 开始默认关闭它。您可以启用 它由
- 在读取 Parquet 文件时将数据源选项
mergeSchema
设置为 true(如下例所示),或 - 将全局 SQL 选项
spark.sql.parquet.mergeSchema
设置为 true。
从文件夹路径读取时尝试添加选项 mergeSchema
:
spark.read.option("mergeSchema","true").parquet("s3://bucket_name/rds-aurora/core/")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。