微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何将数据集转换为存储库中的字典我在铸造厂内使用pyspark

如何解决如何将数据集转换为存储库中的字典我在铸造厂内使用pyspark

我创建了一个融合工作表数据以同步到数据集。现在,我想使用该数据集在存储库中创建字典。我在回购中使用pyspark。稍后我想使用该字典,以便它像在Is there a tool available within Foundry that can automatically populate column descriptions? If so,what is it called?中那样填充描述。

如果有人能帮助我使用回购中的pyspark根据数据集创建字典,那就太好了。

解决方法

以下代码会将您的pyspark数据框转换为词典列表:

fusion_rows = map(lambda row: row.asDict(),fusion_df.collect())

但是,在特定情况下,您可以使用以下代码段:

col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
    my_input.dataframe(),column_descriptions=col_descriptions
)

假设您的Fusion工作表如下所示:

+------------+------------------+
| column_name|       description|
+------------+------------------+
|       col_A| description for A|
|       col_B| description for B|
+------------+------------------+

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。