微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何将数据框转换为great_expectations数据集?

如何解决如何将数据框转换为great_expectations数据集?

我有一个熊猫或pyspark数据框df,我希望以此为依据。 我已经在内存中存储了数据框。如何将数据框转换为great_expectations数据集?

例如,我可以这样做:

df.expect_column_to_exist("my_column")

解决方法

import great_expectations as ge

对于熊猫:

df_ge = ge.from_pandas(df)

df_ge = ge.dataset.PandasDataset(df)

对于pyspark:

df_ge = ge.dataset.SparkDFDataset(df)

现在您可以实现您的期望

df_ge.expect_column_to_exist("my_column")

注意,great_expectations SparkDFDataset不会从pyspark DataFrame继承函数。您可以通过df_ge.spark_df

访问原始的pyspark DataFrame。
,

另请参阅《大期望》文档/教程,了解有关使用ge.from_pandashttps://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html

转换熊猫DF的替代版本。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。