如何解决使用 Glue 将 JSON 文件过滤/分离为新的分类 JSON 文件
我正在尝试使用 AWS 胶水将 JSON 对象从 JSON 文件中分离出来。我不确定它是否适合这项工作。我想从 JSON 文件中过滤掉不同的 JSON 对象。下面的 Gist 有 3 个示例消息,但每个消息都有一个独特的动态架构。在我发送爬虫建立目录之前,我想将文件分成唯一的文件。
我遇到的问题是胶水
glueContext.create_dynamic_frame.from_options(
connection_type='s3',connection_options={"paths": ["s3://<bucket_name>/raw/<partition_schema>"],'recurse': True},format="json"
)
立即为目录中找到的 JSON 文件创建架构。
这是我的目标。
之前:
s3://<bucket_name>/<db_name>/<table_name>_raw/<partition_schema>/json_file.json
之后:
s3://<bucket_name>/<db_name>/<table_name>_raw/<partition_schema>/json_file.json
s3://<bucket_name>/<db_name>/<table_name>_filtered_message_json/<partition_schema>/message_json_file.json
s3://<bucket_name>/<db_name>/<table_name>_filtered_verification_json/<partition_schema>/verification_json_file.json
s3://<bucket_name>/<db_name>/<table_name>_filtered_message_format_version_json/<partition_schema>/message_format_version_json_file.json
然后将过滤后的文件用爬虫抓取并放入数据目录
这是一个示例 JSON 文件。该文件将包含数以千计的消息条目。
https://gist.github.com/Justin-productOps/e5afa19c8de87b4d122f0ff12e923e0a
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。