如何解决AWS Glue 在子级别创建表
我在 S3 存储桶中用于镶木地板文件的文件夹结构如下:
Parent
------- child
-------------- date partition 1
-------------------------------- parquet file 1
-------------------------------- parquet file 2
-------------- date partition 2
-------------------------------- parquet file 3
-------------------------------- parquet file 4
“父”目录中始终只有一个“子”文件夹。我的 S3 目标路径指向“子”文件夹,因为分区数量可能会随时间增加/减少。但是,Glue 创建了一个名为“父”的表,并有 2 个分区 - “子”文件夹和日期分区。这是出乎意料的,因为“child”不是分区,而且 S3 路径已经指向子目录。
截至今天,Glue 爬虫无法为 S3 目标指定类似正则表达式的路径。我也研究了爬虫的分类器,但这似乎是一种描述镶木地板文件中的数据的方法,并且与路径无关。除了更改文件夹结构之外,还有其他方法可以解决此问题吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。