微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

创建一个将数组拆分为行的粘合作业?

如何解决创建一个将数组拆分为行的粘合作业?

我目前有数据从 Firehose 到达 Athena 表。当我查看数据时,它是一个 JSON 数组。是否可以使用粘合作业将数组拆分为单独的行,这样每一行都是它自己的 JSON 日志。

例如:数据到达 [{"a":"test1","b":"success"},{"a":"test2","b":"success"}]

粘合作业应该将其更改为: {“a”:“test1”,“b”:“成功”} {"a":"test2","b":"成功"}

解决方法

这可以通过 pyspark 的 explode function 轻松完成。

您只需要通过调用 .toDF() 函数将 DynamicFrame 转换为 DataFrame。

,

您应该尝试使用 Glue 的relationalize 方法,它对嵌套结构非常有用。 您可以查看此处的示例Relationalize

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。